Beruflich Dokumente
Kultur Dokumente
de Bioinformática
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Autores:
Juan Capel Salinas
Fernando Juan Yuste Lisbona T E X TO S
DOCENTES
nº 5
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
MANUAL DE PRÁCTICAS DE
BIOINFORMÁTICA
y
Departamento de
Biología y Geología, área de Genética
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
Manual de prácticas de Bioinformática
© del texto: sus autores
© Colección Textos docentes nº 5
Editorial Universidad de Almería, 2016
editorial@ual.es
www.ual.es/editorial
Telf/Fax: 950 015459
¤
ISBN: 978-84-16642-34-2
Depósito legal: AL 1567-2016
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
Identificación de ORF (Open Reading Frame, marco abierto de lectura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Mapas de restricción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Diseño de oligonucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Estructuras tridimensionales de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Construcción de árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Diseño de ARçra CRISPR/Cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Visualización y análisis de datos de secuenciación masiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
INTRODUCCIÓN
L
a Bioinformática es un campo de estudio que comprende un gran abanico de disciplinas en las
que participan científicos de muy diversa índole. Por ello, la Bioinformática podría definirse como
una ciencia multidisciplinar donde convergen en armonía los planteamientos experimentales de
la Biología Molecular y Genética, con los enfoques metodológicos y tecnológicos de la Ciencia de la
Computación y la Ingeniería Informática, todo ello dirigido hacia la administración, el análisis y la
comprensión del conocimiento Biológico y Científico.
El desarrollo de herramientas bioinformáticas ha experimentado una importante revolución en la
última década, provocada por la combinación del impacto de Internet y los espectaculares avances
en el campo de la Genómica, los cuales generan ingentes cantidades de datos, cuya gestión y análisis
plantean numerosos problemas que deben ser resueltos desde una perspectiva bioinformática. Conocer
cómo abordar y solucionar estos problemas son competencias que deberían poseer los investigadores
y trabajadores en cualquiera de los ámbitos de la Biotecnología.
La asignatura de Bioinformática ofrece una amplia visión sobre las aplicaciones bioinformáticas
más comunes, así como los fundamentos científicos en las que se basan. El objetivo general de este
manual de prácticas es que los alumnos aprendan cómo acceder de forma eficiente a diferentes bases
de datos biológicas, así cómo utilizar herramientas computacionales para solucionar casos prácticos
que requieren el análisis de datos moleculares.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
Práctica 1: Bases de datos bibliográficas
Las bases de datos (BD) bibliográficas han popularizado su uso en la era de Internet y, hoy por hoy,
son un instrumento indispensable para la difusión y el conocimiento de la producción científica. En
general todas las bases de datos bibliográficas actuales se caracterizan por contener registros con in-
formación básica sobre:
1. El documento (generalmente artículos) como título, tipo de documento, idioma, palabras claves
y descriptores.
2. La fuente de donde provienen los documentos (principalmente revistas) como título, año de
publicación, volumen, número y páginas.
3. La autoría, como el nombre o los nombres de los autores, institución de inscripción y país.
Normalmente, para cada documento se asignan descriptores para clasificarlos y utilizarlos pos-
teriormente como referencia para recuperarlos por medio de las búsquedas. Las BD más completas
también contienen resúmenes, referencias, citas, conexión al documento en texto completo (libre o
restringido a un pago), los documentos relacionados, análisis bibliométricos y herramientas electrónicas
para almacenar y manejar las referencias recuperadas.
Entre las características más importantes a considerar en una BD bibliográfica están la cantidad
de registros y el tipo de campos que capturan, las herramientas de búsqueda, manejo y análisis de los
registros, así como la cobertura tipológica y temática.
Actualmente, la búsqueda de información publicada en diferentes BD bibliográficas es una de las
tareas más frecuentes para obtener información precisa y útil dirigida a solucionar un problema cien-
tífico. Es por ello que los objetivos principales de la presente práctica son:
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
10 Manual de prácticas de Bioinformática
http://www.ncbi.nlm.nih.gov/pubmed/
Veamos cómo buscar referencias bibliográficas a través de PubMed. Por ejemplo, vamos a buscar
información sobre una familia de factores de transcripción denominados “WUSCHEL-related homeo-
box” (WOX), los cuales están relacionados con la organización de grupos de células meristemáticas
que mediante sucesivas etapas de diferenciación y división celular dan lugar a los diferentes órganos
de una planta.
En la ventana de búsqueda (flecha 1) podemos incluir los términos de búsqueda (en inglés): “WUS-
CHEL-related homeobox”, lo que nos da una relación de 65 artículos en los que aparecen cualquiera de
los términos introducidos y que posteriormente podremos reordenar de acuerdo a nuestros criterios;
relevancia, tipo de artículo, periodo de publicación en años, etc.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Alternativamente, podemos realizar una búsqueda avanzada de artículos (flecha 2, página anterior), en
la que podemos incluir términos específicos para campos concretos de la BD de PubMed (autor, fecha de
publicación, idioma de la publicación, revista, etc.), con lo que la búsqueda se vuelve más específica y precisa.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 11
https://www.recursoscientificos.fecyt.es/
WOS es un servicio en línea de información científica, suministrado por Thomson Reuters, integra-
do en ISI Web of Knowledge. Por ello, WOS incluye tres grandes BDpara cada rama del conocimiento:
Science Citation Index (SCI), Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index
(A&HCI). De este modo, WOS facilita el acceso a un conjunto de BD en las que aparecen citas de
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
12 Manual de prácticas de Bioinformática
artículos de revistas científicas, libros y otros tipos de material impreso que abarcan todos los campos
del conocimiento académico.
En este caso, al incluir como términos de búsqueda “WUSCHEL-related homeobox” y realizando
dicha búsqueda dentro de la categoría “Tema”, nos da una relación de 69 artículos, los cuales poste-
riormente podremos reordenar de acuerdo a nuestros criterios: área de investigación, tipo de artículo,
periodo de publicación en años, etc.
búsqueda para mostrar únicamente los pertenecientes a una publicación o un artículo específico. Los
resultados más relevantes para las palabras clave buscadas aparecerán en primer lugar, según el ranking
del autor, el número de referencias que lo enlacen, su relevancia respecto de otra literatura académica,
así como el ranking de la propia publicación en que aparezca el artículo.
Al igual que el caso anterior, incluiremos como términos de búsqueda “WUSCHEL-related homeo-
box”. El resultado de eta búsqueda nos da una relación de 829 resultados. Comparando estos resultados
con los obtenidos anteriormente, encontramos un considerable aumento en el número de resultados.
Esto se debe a que Google Académico no sólo incluye artículos científicos, entre los resultados de este
buscador se pueden encontrar: citas, enlace a libros, artículos de revistas científicas, comunicaciones y
ponencias a congresos, informes científicos-técnicos, tesis, tesinas, así como otros trabajos científicos
depositados en repositorios.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 13
A través de su funcionalidad de «Citado por», es posible consultar los resúmenes de aquellos artículos
que hayan citado el artículo de interés. Además, a través de su función de «Artículos Relacionados»,
Google Académico presenta una lista de artículos estrechamente relacionados, los cuales se ordenan
inicialmente por lo similares que sean estos artículos al resultado original, pero también teniendo en
cuenta la relevancia de cada documento.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
14 Manual de prácticas de Bioinformática
Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe obtener las respuestas a las siguientes preguntas:
t {$VÈOUPTBSUÓDVMPTBQBSFDFOFO1VC.FETJJOUSPEVDJNPTi809wDPNPUÏSNJ-
OPEFCÞTRVFEB
t 3FBMJ[BVOöMUSBEPEFMPTSFTVMUBEPTPCUFOJEPTQBSBDPOPDFSDVÈOUPTBSUÓDVMPT
IBOTJEPQVCMJDBEPTFOJOHMÏTFOMPTÞMUJNPTB×PT{$VÈMFTFMSFTVMUBEP
t )B[FTUBNJTNBCÞTRVFEB UÏSNJOPi809wEFOUSPEFMBDBUFHPSÓBi5FNBw
FO
MB#%8FCPG4DJFODF{$VÈMFTFMSFTVMUBEPEFFTUBCÞTRVFEB
t 'JMUSBMPTSFTVMUBEPTEFNPEPRVFÞOJDBNFOUFBQBSF[DBOBRVFMMPTBSUÓDVMPT
RVFTFBOSFWJTJPOFTZRVFQFSUFOF[DBOBMÈSFBEFJOWFTUJHBDJØOi1MBOU4DJFO-
DFTw{$VÈOUPTBSUÓDVMPTBQBSFDFOUSBTöMUSBSMPTSFTVMUBEPT
t 3FBMJ[BMBCÞTRVFEBEFMUÏSNJOPi809wFO(PPHMF4DIPMBS{$VÈMFTFMSFTVMUB-
EPEFFTUBCÞTRVFEB
t $PNQBSBMPTSFTVMUBEPTPCUFOJEPTFO1VC.FE
804Z(PPHMF4DIPMBS{2VÏ
NPUPSEFCÞTRVFEBFTNÈTFöDJFOUF
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Práctica 2: Bases de datos biológicas
Las bases de datos (BD) biológicas constituyen una herramienta esencial para almacenar, estructurar,
organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su
rápido crecimiento, hacen de las BD una herramienta clave. Por ello las BD se han convertido en un
instrumento indispensable para los científicos experimentales del campo de la biología, así como para
aquellos científicos del área de la bioinformática que desarrollan experimentos in silico. Los repositorios
de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, proteínas, estructura
de proteínas, genomas, expresión genética, taxonomía, metabolismo, factores de transcripción, etc.
Nos podemos hacer una idea de la cantidad y variedad de BD disponibles accediendo a la página
Database of Biological Database (DBD), a la cual puede acceder a través del siguiente enlace: http://
www.biodbs.info/
La búsqueda de información publicada así como la descarga de secuencias de moléculas de interés
desde las BD, son unas de las tareas más comunes en bioinformática. Esta práctica cubrirá con cierta
extensión esta labor, y al final de ella seremos capaces de extraer la información precisa de las BD más
comunes, de una manera eficiente. De este modo, los objetivos principales de la presente práctica son:
Clasificación de BD biológicas
Las BD biológicas se han desarrollado para diversos propósitos y almacenan datos muy heterogéneos.
Según el alcance y cobertura de los datos almacenados, las BD pueden clasificarse en:
t Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Entre este tipo de BD se
encuentran las tres BD de ácido nucleicos, que se localizan en Europa (EMBL, European Mole-
cular Biology Laboratory, IUUQXXXFNCMEF
, Japón (DDJB, DNA Data Bank of Japan, http://
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
16 Manual de prácticas de Bioinformática
estos interfaces sean una página web, lo que posibilita que se acceda a los datos utilizando un simple
navegador web. En las diferentes BD, estos interfaces proporcionan herramientas de búsqueda y ficheros
de texto en los que mostrar la información. Cada uno de los ficheros incluye la información de uno
o varios registros de la BD. Durante la práctica utilizaremos la BD de nucleótidos de Estados Unidos,
gestionada por el NCBI, por ser una de las más sencillas e intuitivas. En cualquier caso, el formato en
el que se encuentran depositadas las secuencias de genes y proteínas en las tres BD principales (i.e.
EMBL, European Molecular Biology Laboratory; DDJB, DNA Data Bank of Japan; y NCBI, National
Center for Biotechnology Information) es el mismo, puesto que se estandarizaron los documentos en los
que se recogen la información necesaria para depositar una secuencia en cualquier BD. A continua-
ción, analizaremos un ejemplo concreto de secuencia nucleotídica depositada en la BD del NCBI. El
procedimiento es muy similar al indicado en la Práctica 1 para buscar información en PubMed, sólo
que ahora trabajaremos con una BD del NCBI diferente; en este caso será la BD “Nucleotide”.
"DDFEBBMTJUJPXFCEFMNCBIVCJDBEPFOMBTJHVJFOUFEJSFDDJØOhttp://www.ncbi.nlm.nih.
gov/Z
FOMBDPMVNOBEFMBEFSFDIBIBHBDMJDFOiNucleotidew NBSDPSPKPEFMB'JHVSB
Podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha 1) o a través
de del procedimiento de búsqueda avanzada (flecha 2). Esto último es generalmente preferible, puesto
que podemos afinar mucho más nuestra búsqueda.
Imaginemos que queremos buscar la secuencia del mensajero de la adenosina quinasa (enzima
que cataliza la formación de adenosina monofosfato, AMP, a partir de adenosina más ATP) de la es-
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 17
pecie Arabidopsis thaliana usando el procedimiento de búsqueda avanzada. Para ello introduciremos
sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos “Organism” y
“Title”, respectivamente.
Entre los resultados obtenidos vamos a seleccionar aquellas resultados que se incluyen dentro de
la BD Refseq, la cual corresponde a una colección de secuencias no redundantes y bien anotadas.
Este filtro se puede aplicar haciendo clic en la etiqueta “Refseq” (recuadro rojo) o bien al inicio de la
búsqueda avanzada, indicando dentro de la categoría “Filter” el término “Refseq”.
En las BD todas las nuevas secuencias que se van introduciendo reciben un número o referencia
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
que las identifica, en este caso entre los resultados obtenidos seleccionaremos la secuencia con núme-
ro de identificador “NM_111817.3” (subrayado en rojo). Si pinchamos en el enlace “FASTA” (flecha),
tendríamos la secuencia en un formato utilizable en distintos programas bioinformáticos.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
18 Manual de prácticas de Bioinformática
Una secuencia en formato FASTA, bien de nucleótidos o de aminoácidos, tiene una sintaxis carac-
terizada por un primer párrafo que obligatoriamente empieza por el símbolo “mayor que” (>) seguido
por un nombre, número o referencia que identifica la secuencia en cuestión; este párrafo es meramente
informativa. En el segundo párrafo se encuentra la secuencia de la molécula propiamente dicha. No
hay más párrafos en el formato FASTA.
De nuevo, podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha
1) o a través de del procedimiento de búsqueda avanzada (flecha 2), lo cual permite afinar mucho más
nuestra búsqueda.
La información que dispone la BD incluye la secuencia de aminoácidos de la proteína. En este caso
realizaremos la búsqueda de la secuencia proteica de la adenosina quinasa de la especie Arabidopsis
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 19
thaliana usando el procedimiento de búsqueda avanzada. Para ello, al igual que en el caso anterior,
introduciremos sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos
“Organism” y “Title”, respectivamente. Tras realizar este proceso de búsqueda aparecen aparecen 17
proteínas de la especie Arabidopsis thaliana que incluyen el término “adenosine kinase“.
Al igual que con la BD de nucleótidos, entre los resultados obtenidos vamos a seleccionar aquellas
proteínas que se incluyen dentro de la BD Refseq, la cual tiene la ventaja de que se trata de una colec-
ción de secuencias de proteínas no redundantes y bien anotadas. Este filtro se puede aplicar haciendo
clic en la etiqueta “Refseq” (flecha) o bien al inicio de la búsqueda avanzada, indicando dentro de la
categoría “Filter” el término “Refseq”.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Una vez filtrado los resultados, aparecen 4 proteínas, entre las cuales hay 2 secuencias de la pro-
teína adenosine kinase 1, una con un tamaño de 302 aa y otra de 344 aa. A continuación pinchamos
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
20 Manual de prácticas de Bioinformática
En esta parte de la práctica, siguiendo los procedimientos descritos anteriormente, el alumno debe
realizar las siguientes tareas:
t #VTDBSMBTFDVFODJBOVDMFPUÓEJDBFOGPSNBUP'"45"ZFMJEFOUJöDBEPSEFMNFO-
TBKFSPEFMBBEFOPTJOBRVJOBTBEFUPNBUF Solanumlycopersicum
t &ODPOUSBSMBTFDVFODJBQSPUFJDBFOGPSNBUP'"45"ZFMJEFOUJöDBEPSEFMBade-
nosine kinase2 EFUPNBUF
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 21
No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas específicos.
NCBI utiliza el visualizador Cn3D como estándar. La descarga del programa Cn3D se realiza desde la
misma página “Domains & Structures” accesible desde la página principal del NCBI. Una vez en ella,
activamos la pestaña “Tools”, y desde aquí pinchamos en el enlace al programa Cn3D.
Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposición de ver estruc-
turas moleculares, bien moléculas completas o bien dominios de proteínas conservados durante la
evolución. Accedemos a la BD de dominios conservados (CDD) y realizamos la búsqueda del termino
“MADS”. El nombre de la familia multigénica MADS-box deriva de las iniciales de sus cuatro miembros
fundadores: MCM1 (Saccharomyces), AGAMOUS (Arabidopsis), DEFICIENS (Antirrhinum) y SERUM
RESPONSE FACTOR (Homo sapiens). Estas proteínas actúan como factores de transcripción, propios
de un buen número de eucariotas, destacándose su presencia en animales, plantas y en levaduras. A
su vez, intervienen en múltiples funciones, entre ellas destaca que están involucrados en el desarrollo
floral de muchas plantas.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
22 Manual de prácticas de Bioinformática
Durante el desarrollo de la práctica, veremos como ejemplo la estructura molecular del dominio
MADS a través del programa Cn3D, así como algunos aspectos básicos de su manejo. Si hacemos clic
en la etiqueta “MADS: MADS domain” (primer resultado, flecha), accederemos a la siguiente página:
En cuanto a su estructura, las proteínas MADS-box poseen sus dominios de interacción con el
ADN en su zona N-terminal (de unos 56 aminoácidos). Las secuencias de aminoácidos que definen
el dominio MADS pueden observarse al final de la página (recuadro rojo), en la sección “Sequence
Alignment”.
Haciendo clic en la figura del dominio MADS (flecha) se inicia la descarga de un fichero llamado
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
“cddsrv.cn3” que podemos abrir con el programa Cn3D. Al abrir dicho fichero podremos ver la es-
tructura tridimensional del dominio MADS. Como podemos ver, se abren 2 ventanas que contienen
por un lado la secuencia aminoacídica que define al dominio:
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 23
En la imagen se muestra que el dominio MADS está formado por dos hélices alfa (cilindros verdes)
y dos láminas beta (rectángulos amarillos).
Durante el transcurso de esta práctica sólo hemos visto los aspectos básicos del manejo del programa
Cn3D, puede ampliar sus conocimientos sobre esta herramienta siguiendo la guía de utilización del
programa (menús, opciones, etc.) que encontrará en el siguiente enlace: https://galter.northwestern.
edu/guides-and-tutorials/structure-viewers.pdf
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
24 Manual de prácticas de Bioinformática
>cDNA_problema_1
AAAATCTCTTTACTACCAGCAAGTTGTTTTCTTGCTAACTTCAAACTTCTCTTTCTCTTGTTCCTCTCTAAGTCTT-
GATCTTATTTACCGTTAACTTTGTGAACAAAAGTCGAATCAAACACACATGGAGCCGCCACAGCATCAGCAT-
CATCATCATCAAGCCGACCAAGAAAGCGGCAACAACAACAACAACAAGTCCGGCTCTGGTGGTTACACGT-
GTCGCCAGACCAGCACGAGGTGGACACCGACGACGGAGCAAATCAAAATCCTCAAAGAACTTTACTACAACA-
ATGCAATCCGGTCACCAACAGCCGATCAGATCCAGAAGATCACTGCAAGGCTGAGACAGTTCGGAAAGATT-
GAGGGCAAGAACGTCTTTTACTGGTTCCAGAACCATAAGGCTCGTGAGCGTCAGAAGAAGAGATTCAACGGA-
ACAAACATGACCACACCATCTTCATCACCCAACTCGGTTATGATGGCGGCTAACGATCATTATCATCCTCTACTT-
CACCATCATCACGGTGTTCCCATGCAGAGACCTGCTAATTCCGTCAACGTTAAACTTAACCAAGACCATCATCTC-
TATCATCATAACAAGCCATATCCCAGCTTCAATAACGGGAATTTAAATCATGCAAGCTCAGGTACTGAATGTGGT-
GTTGTTAATGCTTCTAATGGCTACATGAGTAGCCATGTCTATGGATCTATGGAACAAGACTGTTCTATGAATTA-
CAACAACGTAGGTGGAGGATGGGCAAACATGGATCATCATTACTCATCTGCACCTTACAACTTCTTCGATAGA-
GCAAAGCCTCTGTTTGGTCTAGAAGGTCATCAAGAAGAAGAAGAATGTGGTGGCGATGCTTATCTGGAACATC-
GACGTACGCTTCCTCTCTTCCCTATGCACGGTGAAGATCACATCAACGGTGGTAGTGGTGCCATCTGGAAGTAT-
GGCCAATCGGAAGTTCGCCCTTGCGCTTCTCTTGAGCTACGTCTGAACTAGCTCTTACGCCGGTGTCGCTCGG-
GATTAAAGCTCTTTCCTCTCTCTCTCTCTTTCGTACTCGTATGTTCACAACTATGCTTCGCTAGTGATTAATGAT-
GCAGTTGTTATATTAGTAGTTAACTAGTTATCTCTCGTTATGTGTAATTTGTAATTACTAGCTAAGTATCGTCTA-
GGTTTTAATTGTAATTGACAACCGTTTTATCTCTATGATGAATAAGTTAAAATTTTA
Lo primero que vamos a hacer es tratar de ver si contiene algún marco abierto de lectura (Open
Reading Frame – ORF), es decir, si contiene un conjunto de codones que son capaces de traducirse
a proteína. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el NCBI. Hacemos
clic en el vínculo correspondiente a esa utilidad, que se encuentra en la etiqueta “Tools” de la entrada
“Sequence analysis” y entramos en la página correspondiente a la búsqueda de ORF’s.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 25
La nueva página permite introducir el identificador de una de las secuencias ya contenidas en las
BD, o analizar una secuencia problema. Esto último es lo que vamos a hacer nosotros. En el cuadro
grande en blanco vamos a introducir la secuencia problema en formato FASTA.
El programa da como resultado los posibles ORF’s, tanto para la hebra plus (+) como para la hebra
minus (-), mostrando 3 posibilidades para cada una de las hebras. De todos los ORF’s que aparecen en
cada una de las 3 pautas de lectura de las hebras plus (+) y minus (-). Empezaremos por investigar el
mayor de todos (en este caso 879 nucleótidos). En la figura siguiente está recuadrado en rojo y mar-
cado con una flecha. Pinchamos sobre él, y aparecerá una nueva pantalla con el ORF seleccionado, ya
aislado y con su traducción a proteína.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Nos quedaremos con la secuencia de la proteína que se codificaría a partir de este ORF. Para ello,
utilizando el bloc de notas, copiaríamos la secuencia y la editaríamos convenientemente en formato
FASTA. Nos quedaría algo así como:
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
26 Manual de prácticas de Bioinformática
>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR-
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVNVKL-
NQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMDHHYS-
SAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN
Esta secuencia será objeto de estudio en la próxima práctica para ilustrar el uso de la herramienta
BLAST. No obstante, en este punto de la práctica, el alumno deberá analizar la secuencia del cDNA
problema mostrado a continuación e indicar en formato FASTA cuál sería su secuencia proteica pre-
dicha más probable.
>cDNA_problema_2
ACATACATACATACATTTGTAGAGTTGTTGTTGTTTTATGATGGAACATCAACACAACATAGAAGATGGTGGTAAAA-
ATAGTAACAACAGTTTCCTGTGCAGGCAAAGTAGTAGCCGTTGGACGCCAACGAGCGATCAGATAAGAATATTGA-
AGGATCTCTACTACAACAATGGAGTTAGGTCTCCAACTGCTGAACAGATTCAGAGGATATCTGCTAAGTTGAGA-
CAGTACGGTAAGATTGAAGGCAAAAATGTGTTTTATTGGTTTCAGAACCATAAAGCTCGTGAAAGACAAAAGAAGA-
GGCTCATTGCTGCTGCCTCTGCCACTGATAATAATAATATCTCTTCCATGCAAATGATTCCACATCTTTGGAGATCTCCT-
GATGATCACCACAAGTACAACACTACTACTACTAATCCAGGTGTTCAGTGTCCATCACCATCTTCACATGGGGTATTAC-
CAGTGGTACAGACTGGAAACTATGGTTATGGAACTTTGGCTATGGAGAAGAGCTTTAGGGAGTGTTCAATATCAC-
CACCAGGTGGTAGTTATCATCAAAATTTGACATGGGTTGGTGTTGATCCTTACAACAATATGAGTACTACTTCTCCAG-
CAACTTACCCTTTTCTTGAAAAAAGCAACAACAAACACTATGAAGAAACCCTAGATGAAGAGCAAGAAGAAGAAA-
ATTACCAAAGGGGTAACTCTGCTTTAGAAACTCTGTCACTTTTCCCCATGCATGAAGAGAACATCATCTCAAATTTCT-
GCATCAAACATCATGAATCTTCTGGAGGATGGTACCATTCTGATAATAACAATTTGGCTGCTCTTGAACTTACTCTCA-
ACTCTTTCCCCTAAATTATGAACTAGTCTATCTTATGTTTGTAGTAAGTAAGTACTAATCTAATTTGGTATGTGCCAAGC-
TATTTGGACCTTATGGTAATGTTAATTAATCTTAATCTAAGTTGTACTAATATTATTAATTAAAGTATGGATAAGTTTATT
Mapas de restricción
Un mapa de restricción es la ubicación dentro de una secuencia nucleotídica de los sitios de corte
para diferentes enzimas. Generalmente, queremos conocer estos lugares de cortes para varios objetivos
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
relacionados con la tecnología del DNA recombinante. Para realizar este tipo de análisis de restricción
se utilizan herramientas bioinformáticas, las cuales localizan en la secuencia nucleotídica las dianas
de diferentes enzimas de restricción. Para hacer estos análisis necesitamos una BD que contenga las
secuencias reconocidas por las diferentes enzimas. Posteriormente, el programa utilizará esta BD para
localizar las diferentes dianas de restricción presentes en nuestra secuencia problema. Existen varias
herramientas bioinformáticas que nos indican las dianas de corte de enzimas de restricción. Algunas
de estas herramientas son:
WatCut http://watcut.uwaterloo.ca/watcut/watcut/template.php
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 27
remap http://www.bioinformatics.nl/cgi-bin/emboss/remap
Durante el desarrollo de esta práctica, utilizaremos la herramienta Webcutter 2.0 para la búsqueda
de dianas de restricción.
"DDFEBBMTJUJPXFCEFWebcutter 2.0VCJDBEPFOMBTJHVJFOUFEJSFDDJØO
http://rna.lundberg.gu.se/cutter2/
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
28 Manual de prácticas de Bioinformática
En la sección “Please select the type of analysis you would like” indicaremos que se trata de una
secuencia linear; mientras que en la sección “Please indicate how you would like the restriction sites
displayed” indicaremos que nos muestre el mapa de restricción y la lista de los sitios de restricción
ordenados secuencialmente por número de base, tal y como se muestra en la siguiente figura.
En la sección “Please indicate which enzymes to include in the display”, indicaremos que tipo de
enzimas queremos que aparezcan en la página de resultados, en nuestro caso “All enzymes”. Posterior-
mente, seleccionaremos que tipo de enzimas queremos incluir en el análisis dentro de la sección “Please
indicate which enzymes to include in the analysis”. En este caso utilizaremos sólo aquellas enzimas cuyas
dianas de restricción sean igual o mayor de 6 bases. Finalmente haremos clic en “Analyze sequence”.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Después de unos segundos, se abrirá una nueva página con los resultados del análisis. En primer
lugar aparece el mapa de restricción “Graphic map” (página siguiente).
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 29
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
30 Manual de prácticas de Bioinformática
En segundo lugar podemos encontrar la tabla donde se indican los sitios de restricción ordenados
secuencialmente por número de base, como se muestra en la siguiente figura.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 31
Por último, antes de terminar esta práctica, el alumno deberá buscar las dianas de restricción de
la secuencia nucleotídica problema que se muestra a continuación. Para ello utilizará sólo aquellas
enzimas cuyas dianas de restricción sean igual o mayor de 8 bases.
>Secuencia_problema
GAAAAGAAAAGTGAACAATACACTGTTTTTTACTAATTATTTTTTAGAAAAAGAAAAAAGGAATATTGTGT-
GTTTGCTTTTTTTTCTGACTAGTAGTATTGCTAACTATGTATTCCATTAAGGATTTGCTGTGAAAAAGCCTGATAT-
CAGTAAGCATAAAACTCGGGAGATCACTTACACACACACACCCTCGTAAAAAAGAGAAGAGAGATTTACT-
GTTAAACAGAGGTTTTTTTCCATTTCTTTTTTTTTTCTCAGTGTGTGTGAGAGAGAGAGATGGTTTTCATA-
GGCAAAAACAAATAGAAAGGAACAAAATTTAGAGTGAAGAAGAAAGTGTGTGAGAGAATAATGGAGGGT-
GGTTCTAGTGGAAATACTAGTACATCTTGTTTAATGATGATGGGATATGGAGATCATGAGAACAACAACAA-
CAACAATGGAAATGGTAATGGAAATGGAAATGGAAATGTAACAATTTGTGCTCCTCCAATGATGATGATGAT-
GCCTCCTCCTCCTCCTTCTTTAACTAACAATAACAATGCAGAAACAAGCAGCAACAACATCCTTTTTCTTCCTTT-
CATGGACAACAACAACAATAATCCTCAAGAAGACAACAACTCTTCTTCTTCTTCCATCAAGTCAAAGATTAT-
GGCTCATCCTCACTACCATCGTCTCTTGACTGCTTATCTCAATTGTCAAAAGATAGGAGCTCCGCCAGAAGTGGT-
GGCAAGGCTAGAGGAAATATGTGCCACGTCAGCAACAATGGGCCGTAGCAGTAGTAGTAGTGGTGGTGGAAT-
CATTGGAGAAGATCCTGCACTAGATCAGTTCATGGAGGCTTATTGTGAGATGCTGACAAAATATGAACAAGA-
ACTCTCAAAACCCTTCAAGGAAGCCATGGTTTTTCTTTCAAGAATTGAGTGTCAGTTCAAAGCTTTAACTCTT-
GCACCTAATTCTTCTCATGAATCTGCTTTGGGCGAGGCAATGGATAGAAATGGATCATCTGATGAAGAGGTT-
GACGTGAATAACAGTTTCATCGACCCCCAGGCTGAGGATAGAGAGCTCAAAGGTCAATTGTTGCGTAAGTA-
CAGCGGTTACTTGGGAAGCCTTAAGCAGGAGTTCATGAAGAAGAGGAAGAAAGGCAAGCTGCCTAAGGAA-
GCAAGGCAACAATTGGTGGATTGGTGGCTTAGACATATTAAATGGCCATATCCATCGGAATCTCAGAAGCTTG-
CACTAGCTGAATCAACGGGATTGGACCAGAAGCAAATAAACAACTGGTTTATCAATCAAAGAAAGAGGCATT-
GGAAACCATCAGAAGATATGCAGTTTGTTGTGATGGATGCTGCTCATCCACATTACTATATGGATAATGTTCTT-
GCTAACCATTTCCCAATGGATATGACACCCTCTCTCCTCTGAATTAAGATTTGTCATTATTAGTATCAAGGAT-
GTTTAATTAATTTGCATATTACTTGTGTGCATGTAGTAGTACAAGGTATTGTGACACAATCAACTTTTTATTAGAC-
CAAATATATAAAGTGCTTGTAATAGATCTTTCTATTATCATCTTTAATTATAGAATTAAATAGTTTGTACTTGCTAAA-
AATTTTGAAAAATAA
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
Práctica 3: BLAST, una herramienta de análisis de secuencias
BLAST (Basic Local Alignment Search Tool) es un programa informático de alineamiento de secuen-
cias, ya sea de ADN o de proteínas, que puede comparar una secuencia problema con otra secuencia
o con todas las secuencias que se encuentren en una base de datos (como por ejemplo la base de datos
de Refseq que contiene una colección de secuencias de proteínas no redundantes y bien anotadas)
encontrando las secuencias de la base de datos que tienen mayor parecido a la secuencia problema.
BLAST fue creado y es mantenido por el NIH (National Institutes of Health) a través del NCBI
(National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/) siendo de dominio
público y de uso gratuito. La ventaja de utilizar BLAST a través del formulario que provee el NCBI es
que el usuario no tiene que mantener al día las bases de datos y además la búsqueda se realiza muy
rápidamente.
BLAST utiliza el algoritmo Smith-Waterman que se basa en el uso de programación dinámica para
garantizar que el alineamiento local encontrado es óptimo con respecto a un determinado sistema de
puntuación como las matrices tipo BLOSUM o PAM. Una matriz de este tipo contiene la puntuación
(score) que se le da al alinear un nucleótido o un aminoácido de la posición X de la secuencia A con
otro aminoácido de la posición Y de la secuencia B. El uso de este tipo de matrices permite a BLAST
dar una puntuación a los alineamientos que realiza. Además, BLAST utiliza un algoritmo heurístico
para calcular la significación de los resultados, lo que nos dará un parámetro con el que valorar los
resultados que se han obtenido tras la búsqueda.
Durante esta práctica se utilizará el programa BLAST para analizar tanto secuencias de ADN como
de aminoácidos. Durante su transcurso, aprenderemos a extraer, de forma estructurada y eficaz, la
información necesaria de las diferentes bases de datos moleculares. De este modo, el objetivo principal
de esta práctica es:
"DDFEBBMTJUJPXFCEFMNCBIVCJDBEPFOMBTJHVJFOUFEJSFDDJØO
http://www.ncbi.nlm.nih.gov/
3FBMJDFMBCÞTRVFEBEFMBTFDVFODJBOVDMFPUÓEJDBDPOJEFOUJöDBEPSiHO850244.1w
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
34 Manual de prácticas de Bioinformática
CAMPO DESCRIPCIÓN
SEQUENCE
CACTTGAAGAAGCCTGAGAACTGGGCTCTGGTTGGGAAGGCCA-
Secuencia amplificada con los cebadores anterior-
AGTTTTATTACATTGCTGGATTCTTCCTCACGGTATCACCAGAATCCATT-
mente descritos
CAGTTGGTACGTGAACATGCTGCTGCAAACAACAAGGTGTTCACGAT-
GAACCTTTCTGCTCCATTCATCTGT
Entry Created: Oct 20 2010 Fecha de creación y última actualización del regis-
Last Updated: Oct 20 2010 tro
COMMENTS
Observaciones sobre cómo se ha obtenido la se-
The sequence was obtained from samples subjected to vitrification
cuencia
solution treatment of cryopreservation
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 35
CAMPO DESCRIPCIÓN
PUTATIVE ID
Función putativa y origen de esta asignación de
Assigned by submitter
función
adenosine kinase 1
LIBRARY
Lib Name: LIBEST_026723 Arabidopsis vitrification solution
treatment
Library Organism: Arabidopsis thaliana
Ecotype: Col-0
Tissue type: Seedlings
Develop. stage: 2d and 3d
Lab host: E. coli DH5-alpha
Vector: pMD18-T simple vector
R. Site 1: EcoRI
Descripción de la genoteca: nombre, organismo,
Description: 2 & 3-day Arabidopsis thaliana seedlings were immer-
ecotipo y protocolo utilizado para obtener la geno-
sed in loading solution (MS liquid medium+2 M glycerol+0.4 M su-
teca a partir de la cual se ha obtenido la secuencia
crose) for 20 minutes at room temperature. Loading solution was
removed from the cryovial and rapidly replaced by filtered sterilized
cryoprotective solution PVS2 (30% w/v glycerol, 15% w/v ethylene
glycol and 15% w/v DMSO in liquid MS medium supplemented with
0.4 M sucrose) and left at 0degC for 50 minutes. cDNA library was
derived from these seedlings. cDNA synthesis was initiated using
a oligo(dT) primer. Double-stranded cDNA was blunted, digested
with EcoRI and MseI restriction endonuclease, ligated to EcoRI and
MseI adaptors, using cDNA-AFLP to screen the different expression
gene, and cloned into the pMD18-T simple vector.
SUBMITTER
Name: Ren Li
Lab: Ornamental Plant Germplasm Laboratory
Institution: School of Agriculture and Biology, Shanghai Jiaotong
Datos de contacto del investigador que han depo-
University
sitado la secuencia en la base de datos de EST del
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
CITATIONS
Title: Comparative cDNA-AFLP analysis reveals transcriptional profi-
ling of 2 & 3-day rabidopsis thaliana seedlings in response to vitrifi-
cation solution treatment of cryopreservation Datos sobre como citar esta secuencia: Nombre del
Authors: Ren,L., Zhang,D., Shen,X.H. artículo, autores, fecha de publicación, revista, etc.
Year: 2010
Status: Unpublished
El NCBI no sólo ofrece el formato “EST” para mostrar información sobre una secuencia. Si hacemos
clic sobre el etiqueta “EST” (flecha), aparece un desplegable con los diferentes formatos en los que el
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
36 Manual de prácticas de Bioinformática
NCBI permite visualizar la información sobre una secuencia (recuadro rojo). En la práctica anterior
(Práctica 2: Bases de datos biológicas) examinamos el formato FASTA, válido tanto para secuencias
de nucleótidos como de aminoácidos, el cual nos proporciona las secuencias en un formato utilizable
en distintos programas bioinformáticos.
CAMPO DESCRIPCIÓN
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 37
CAMPO DESCRIPCIÓN
SOURCE
Arabidopsis thaliana (thale cress)
ORGANISM Arabidopsis thaliana Nombre científico del organismo
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Sper-
matophyta; Magnoliophyta; eudicotyledons; Gunneridae; Pentapetalae;
rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis
REFERENCE 1 (bases 1 to 165)
AUTHORS Ren,L., Zhang,D. and Shen,X.H. Datos sobre como citar esta secuencia:
TITLE Comparative cDNA-AFLP analysis reveals transcriptional profiling of Nombre del artículo, autores, fecha de
2 & 3-day Arabidopsis thaliana seedlings in response to vitrification solu- publicación, revista, etc.
tion treatment of cryopreservation
JOURNAL Unpublished (2010)
COMMENT
Contact: Ren Li.
Ornamental Plant Germplasm Laboratory School of Agriculture and Biolo-
gy, Shanghai Jiaotong University NO.800, Dong Chuan Rd., Shanghai, P. R.
China Tel: +86 21 34205731 Comentarios y observaciones sobre la
Fax: +86 21 34205736 secuencia
Email: renliaqx@gmail.com
The sequence was obtained from samples subjected to vitrification solu-
tion treatment of cryopreservation
Seq primer: M13 Forward, RV-M Reversed
POLYA=No
FEATURES
Location/Qualifiers
Source 1..165 /organism=”Arabidopsis thaliana”/mol_type=”mRNA”/
ecotype=”Col-0”/db_xref=”taxon:3702”/clone=”AT74”/ tissue_
type=”Seedlings” /dev_stage=”2d and 3d”/lab_host=”E. coli DH5-alpha” /
clone_lib=”LIBEST_026723 Arabidopsis vitrification solution treatment li-
brary”/note=”Vector: pMD18-T simple vector; Site_1: EcoRI; 2 & 3-day Ara-
bidopsis thaliana seedlings were immersed in loading solution (MS liquid
medium+2 M glycerol+0.4 M sucrose) for 20 minutes at room temperatu- Características: contiene la información
re. Loading solution was removed from the cryovial and rapidly replaced biológica de la secuencia
by filtered sterilized cryoprotective solution PVS2 (30% w/v glycerol, 15%
w/v ethylene glycol and 15% w/v DMSO in liquid MS medium supple-
mented with 0.4 M sucrose) and left at 0degC for 50 minutes. cDNA library
was derived from these seedlings. cDNA synthesis was initiated using a
oligo(dT) primer. Double-stranded cDNA was blunted, digested with Eco-
RI and MseI restriction endonuclease, ligated to EcoRI and MseI adaptors,
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
using cDNA-AFLP to screen the different expression gene, and cloned into
the pMD18-T simple vector.”
ORIGIN
1 cacttgaaga agcctgagaa ctgggctctg gttgggaagg ccaagtttta ttacattgct Secuencia que contiene el identifica-
61 ggattcttcc tcacggtatc accagaatcc attcagttgg tacgtgaaca tgctgctgca dor seleccionado
121 aacaacaagg tgttcacgat gaacctttct gctccattca tctgt
"DDFEBBMTJUJPXFCEFMNCBIEPOEFTFBMPKBMBIFSSBNJFOUBBLASTBUSBWÏTEFMBTJHVJFOUFEJSFDDJØO
IUUQCMBTUODCJOMNOJIHPW#MBTUDHJ
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
38 Manual de prácticas de Bioinformática
Existen distintos tipos de programas BLAST para el análisis de secuencias tanto de nucleótidos
(blastn, tblastx, tblastn) como de proteínas (blastp, blastx). Para saber cuál utilizar es fundamental
tener en cuenta 3 factores: (1) la naturaleza de la secuencia problema, (2) el objetivo de la búsqueda y
(3) la base de datos donde se va a llevar a cabo la búsqueda. La siguiente tabla muestra las diferentes
versiones del programa BLAST:
Una vez en esta página pegaremos la secuencia en formato FASTA en la ventana en blanco de la
sección “Enter accession number(s), gi(s), or FASTA sequence(s)”. A continuación seleccionaremos una
base de datos contra la que comparar nuestra secuencia problema. El análisis puede realizarse frente a
diferentes bases de datos (recuadro rojo). En este caso hemos elegido la base de datos “nucleotide co-
llection (nr/nt)”, que contiene una colección de secuencias nucleotídicas no redundantes (acrónimo nr).
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 39
Entre los posibles algoritmos que pueden ser utilizados para analizar la secuencia problema, el
algoritmo “megablast” es el más restrictivo entre los tres posibles, debido a que está diseñado para
identificar la propia secuencia problema (el parecido es del 100%) o para encontrar secuencias muy
parecidas (mayor del 95% de residuos nucleotídicos idénticos). En cuanto al algoritmo “discontiguous
megablast”, es más sensible y eficaz que el algoritmo “blastn” porque ignora algunas bases (la tercera
de cada codón) y porque al comparar la secuencia problema con la diana no es necesario que ambas
sean idénticas, sino que permite la presencia de discontinuidades.
En este caso utilizaremos el algoritmo “megablast”. Finalmente para ejecutar la búsqueda seleccio-
naremos “Show results in a new window” y haremos clic en el botón “BLAST”.
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
40 Manual de prácticas de Bioinformática
Finalmente en la sección “Alignments” se muestran los alineamientos HSP (pares de alta puntua-
ción, High Score Pairs).
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 41
Las barras verticales representan emparejamientos entre la secuencia que usamos para la búsqueda
(Query) y las secuencias de la base de datos (Sbjct), los espacios que no tienen barra vertical significa
que en ambas secuencias hay diferentes nucleótidos, mientras que las líneas horizontales son huecos
o gaps (en el ejemplo que se muestra no existe ningún gap), que deja BLAST para realizar mejor el
alineamiento.
En el ejemplo que se representa, la secuencia con identificador “BT033101.1” es el resultado más
probable del análisis blastn. Si accedemos a la página que contiene dicha secuencia podremos observar
la información que recoge el NCBI sobre esta secuencia en formato “GenBank”. Entre esta información
podemos distinguir los campos anteriormente descritos. Entre ellos, dado que se trata de una secuencia
de tipo CDS (CoDing Sequence), merece la pena reseñar la información que recoge el campo “FEA-
TURES”, donde además de información biológica relevante podemos encontrar la secuencia proteica
que codifica dicho CDS (recuadro rojo), cuyo número de identificación es “ACF16163.1” (indicado
con una flecha roja).
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
42 Manual de prácticas de Bioinformática
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 43
Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe realizar las siguientes tareas:
"QBSUJSEFMBTFDVFODJBEFM&45EFUPNBUFDPOOÞNFSPEFJEFOUJöDBEPSiBF113600.1w
t &ODPOUSBSFMUFKJEPBQBSUJSEFMDVBMTFIBPCUFOJEPEJDIP&45
t 3FBMJ[BSVOBOÈMJTJT#-"45FJEFOUJöDBSFMSFTVMUBEPNÈTQSPCBCMF
t {2VÏOÞNFSPEFJEFOUJöDBEPSUJFOFEJDIBTFDVFODJB
t {2VÏUJQPEFNPMÏDVMBFT
t {$VÈMFTFMOÞNFSPEFJEFOUJöDBEPSEFMBQSPUFÓOBRVFDPEJöDBEJDIBTFDVFODJB
>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR-
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVN-
VKLNQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMD-
HHYSSAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN
En esta práctica vamos a buscar si esta proteína problema presenta alguna relación con otras
secuencias depositadas en la base datos; es decir, tratar de deducir en la medida de lo posible y por
comparación, la familia de proteínas a la que pertenece y su posible función.
"DDFEBBMTJUJPXFCEFMNCBIEPOEFTFBMPKBMBIFSSBNJFOUBBLASTBUSBWÏTEFMBTJHVJFOUFEJSFDDJØO
IUUQCMBTUODCJOMNOJIHPW#MBTUDHJ
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Para realizar esta tarea, puesto que se trata de una secuencia proteica, se utilizará “protein blast”
(blastp), que compara una secuencia de aminoácidos contra una base de datos del mismo tipo.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
44 Manual de prácticas de Bioinformática
Con ello se iniciará el proceso de búsqueda de secuencias similares a la nuestra. Durante el proceso
de búsqueda de secuencias nos aparecen unas pantallas que nos indican de qué tipo de proteína se
trata nuestra proteína problema. Una de esas pantallas tiene el siguiente aspecto:
mos en el esquema que muestra el dominio de “homeodomain” podremos obtener información sobre
la secuencia del mismo, e incluso quizá su estructura en 3 dimensiones si ésta ha sido publicada. En
este caso se trata de un dominio de unión a ADN que presenta una longitud de aproximadamente 60
aminoácidos. Los genes que codifican proteínas que presentan dicho dominio están implicados en la
regulación de los patrones de desarrollo (morfogénesis) en animales, hongos y plantas.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Juan Capel Salinas y Fernando Juan Yuste Lisbona 45
Una vez que esté terminada la búsqueda aparece una pantalla con los resultados. Como ocurre con
el análisis blastn, en la primera sección de la página de resultados, desplegando la etiqueta “Search
Summary” (flecha roja) se puede observar información relativa a la búsqueda donde por ejemplo se
puede ver el número de secuencias proteicas almacenadas en la base de datos utilizada (recuadro rojo),
en este caso Refseq.
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice