Manual de Prácticas de Bioinformática - (PG 1 - 45)

Manual de prácticas
de Bioinformática
Copyright © 2016. Editorial Universidad de Almería. All rights reserved.
Autores:
Juan Capel Salinas
Fernando Juan Yuste Lisbona T E X TO S
DOCENTES
nº 5
Yuste, Lisbona, Fernando Juan, and Juan Fernando. Manual de prácticas de Bioinformática, Editorial Universidad de Almería, 2016. ProQuest Ebook Central,
http://ebookcentral.proquest.com/lib/consorcioujatsp/detail.action?docID=5190138.
Created from consorcioujatsp on 2018-05-07 09:24:32.
MANUAL DE PRÁCTICAS DE
BIOINFORMÁTICA
Juan Capel Salinas

Fernando Juan Yuste Lisbona
y
Departamento de
Biología y Geología, área de Genética
Manual de prácticas de Bioinformática
© del texto: sus autores
© Colección Textos docentes nº 5
Editorial Universidad de Almería, 2016
editorial@ual.es
www.ual.es/editorial
Telf/Fax: 950 015459
¤
ISBN: 978-84-16642-34-2
Depósito legal: AL 1567-2016
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
Práctica 1: Bases de datos bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Revisión bibliográfica en Pubmed. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Búsqueda bibliográfica en Web of Science . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Consulta bibliográfica en Google Scholar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Práctica 2: Bases de datos biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Clasificación de BD biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Búsqueda de secuencias de ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Consulta de secuencias proteicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Estructuras tridimensionales de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Identificación de ORF (Open Reading Frame, marco abierto de lectura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Mapas de restricción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Práctica 3: BLAST, una herramienta de análisis de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Accediendo a las secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Análisis BLAST de secuencias de ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Búsqueda BLAST de secuencias proteicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Práctica 4: Diseño de cebadores para PCR in silico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Temperatura de fusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Tamaño del oligonucleótido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Complementariedad en la secuencia de los oligonucleótidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Diseño de oligonucleótidos in silico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Práctica 5: Alineamiento de secuencias e identificación de motivos . . . . . . . . . . . . . . . . . . . . . . . . . 59
Alineamiento óptimo de dos secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Alineamientos múltiples de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Identificación de motivos conservados en un conjunto de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Práctica 6: Construcción de árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Filogenias basadas en secuencias de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Identificación de familias multigénicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Alineamientos de secuencias como base de los árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Creación de árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Práctica 7: Edición de genomas con CRISPR/Cas: diseño de ARN guía . . . . . . . . . . . . . . . . . . . . . . 95
Tecnología CRISPR/Cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Breaking-Cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Práctica 8: Visualización y análisis de datos de secuenciación masiva (NGS) . . . . . . . . . . . . . . . . . . 103
Integrative Genomics Viewer (IGV) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Identificación de mutaciones puntuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Corolario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Bases de datos bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Bases de datos biológicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Análisis de secuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Identificación de ORF (Open Reading Frame, marco abierto de lectura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Mapas de restricción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Diseño de oligonucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Estructuras tridimensionales de proteínas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Construcción de árboles filogenéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Diseño de ARçra CRISPR/Cas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Visualización y análisis de datos de secuenciación masiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
INTRODUCCIÓN
L
a Bioinformática es un campo de estudio que comprende un gran abanico de disciplinas en las
que participan científicos de muy diversa índole. Por ello, la Bioinformática podría definirse como
una ciencia multidisciplinar donde convergen en armonía los planteamientos experimentales de
la Biología Molecular y Genética, con los enfoques metodológicos y tecnológicos de la Ciencia de la
Computación y la Ingeniería Informática, todo ello dirigido hacia la administración, el análisis y la
comprensión del conocimiento Biológico y Científico.
El desarrollo de herramientas bioinformáticas ha experimentado una importante revolución en la
última década, provocada por la combinación del impacto de Internet y los espectaculares avances
en el campo de la Genómica, los cuales generan ingentes cantidades de datos, cuya gestión y análisis
plantean numerosos problemas que deben ser resueltos desde una perspectiva bioinformática. Conocer
cómo abordar y solucionar estos problemas son competencias que deberían poseer los investigadores
y trabajadores en cualquiera de los ámbitos de la Biotecnología.
La asignatura de Bioinformática ofrece una amplia visión sobre las aplicaciones bioinformáticas
más comunes, así como los fundamentos científicos en las que se basan. El objetivo general de este
manual de prácticas es que los alumnos aprendan cómo acceder de forma eficiente a diferentes bases
de datos biológicas, así cómo utilizar herramientas computacionales para solucionar casos prácticos
que requieren el análisis de datos moleculares.
Created from consorcioujatsp on 2018-05-07 09:24:32. 4Volver al índice
Práctica 1: Bases de datos bibliográficas
Las bases de datos (BD) bibliográficas han popularizado su uso en la era de Internet y, hoy por hoy,
son un instrumento indispensable para la difusión y el conocimiento de la producción científica. En
general todas las bases de datos bibliográficas actuales se caracterizan por contener registros con in-
formación básica sobre:
1. El documento (generalmente artículos) como título, tipo de documento, idioma, palabras claves
y descriptores.
2. La fuente de donde provienen los documentos (principalmente revistas) como título, año de
publicación, volumen, número y páginas.
3. La autoría, como el nombre o los nombres de los autores, institución de inscripción y país.
Normalmente, para cada documento se asignan descriptores para clasificarlos y utilizarlos pos-
teriormente como referencia para recuperarlos por medio de las búsquedas. Las BD más completas
también contienen resúmenes, referencias, citas, conexión al documento en texto completo (libre o
restringido a un pago), los documentos relacionados, análisis bibliométricos y herramientas electrónicas
para almacenar y manejar las referencias recuperadas.
Entre las características más importantes a considerar en una BD bibliográfica están la cantidad
de registros y el tipo de campos que capturan, las herramientas de búsqueda, manejo y análisis de los
registros, así como la cobertura tipológica y temática.
Actualmente, la búsqueda de información publicada en diferentes BD bibliográficas es una de las
tareas más frecuentes para obtener información precisa y útil dirigida a solucionar un problema cien-
tífico. Es por ello que los objetivos principales de la presente práctica son:
t Aprender el uso básico de las BD bibliográficas.

t Comprender la información que ofrecen este tipo de BD.
Revisión bibliográfica en Pubmed

El sistema de búsqueda PubMed es un proyecto desarrollado por el NCBI (National Center for Biote-
chnology Information). Permite el acceso a BD bibliográficas como MEDLINE y PreMEDLINE (citas
enviadas por los editores). Tiene una buena colección de entradas relacionadas con la bioquímica,
biología celular y la medicina. No obstante, su ámbito principal es la medicina, por lo que las revistas
de otros campos del conocimiento en las que se describen genes o la función de los mismos no siem-
pre están incluidas. Incluye los títulos, autores y resúmenes de los artículos publicados. Recientemente
están realizando esfuerzos por incluir enlaces a la página donde se publicó el artículo o donde se puede
consultar un repositorio del mismo.
10 Manual de prácticas de Bioinformática
Acceda al sitio web del PubMed ubicado en la siguiente dirección:
http://www.ncbi.nlm.nih.gov/pubmed/
Veamos cómo buscar referencias bibliográficas a través de PubMed. Por ejemplo, vamos a buscar
información sobre una familia de factores de transcripción denominados “WUSCHEL-related homeo-
box” (WOX), los cuales están relacionados con la organización de grupos de células meristemáticas
que mediante sucesivas etapas de diferenciación y división celular dan lugar a los diferentes órganos
de una planta.
En la ventana de búsqueda (flecha 1) podemos incluir los términos de búsqueda (en inglés): “WUS-
CHEL-related homeobox”, lo que nos da una relación de 65 artículos en los que aparecen cualquiera de
los términos introducidos y que posteriormente podremos reordenar de acuerdo a nuestros criterios;
relevancia, tipo de artículo, periodo de publicación en años, etc.
Alternativamente, podemos realizar una búsqueda avanzada de artículos (flecha 2, página anterior), en
la que podemos incluir términos específicos para campos concretos de la BD de PubMed (autor, fecha de
publicación, idioma de la publicación, revista, etc.), con lo que la búsqueda se vuelve más específica y precisa.
Juan Capel Salinas y Fernando Juan Yuste Lisbona 11
Búsqueda bibliográfica en Web of Science

La búsqueda de información en otras BD bibliográficas es similar a lo mostrado anteriormente. Con-
viene que practiques buscando estos mismos términos de búsqueda en la BD Web of Science (WOS).
Acceda a WOS ubicada en la siguiente dirección:
https://www.recursoscientificos.fecyt.es/
WOS es un servicio en línea de información científica, suministrado por Thomson Reuters, integra-
do en ISI Web of Knowledge. Por ello, WOS incluye tres grandes BDpara cada rama del conocimiento:
Science Citation Index (SCI), Social Sciences Citation Index (SSCI), Arts & Humanities Citation Index
(A&HCI). De este modo, WOS facilita el acceso a un conjunto de BD en las que aparecen citas de
artículos de revistas científicas, libros y otros tipos de material impreso que abarcan todos los campos
del conocimiento académico.
En este caso, al incluir como términos de búsqueda “WUSCHEL-related homeobox” y realizando
dicha búsqueda dentro de la categoría “Tema”, nos da una relación de 69 artículos, los cuales poste-
riormente podremos reordenar de acuerdo a nuestros criterios: área de investigación, tipo de artículo,
periodo de publicación en años, etc.
Consulta bibliográfica en Google Scholar

Otro buscador especializado en bibliografía es Google Scholar o Google Académico, el cuál está diri-
gido a la comunidad científico-académica.
Google Académico es tan sencillo de utilizar como la búsqueda web regular de Google, especial-
mente con la función de «búsqueda avanzada», que puede filtrar automáticamente los resultados de
búsqueda para mostrar únicamente los pertenecientes a una publicación o un artículo específico. Los
resultados más relevantes para las palabras clave buscadas aparecerán en primer lugar, según el ranking
del autor, el número de referencias que lo enlacen, su relevancia respecto de otra literatura académica,
así como el ranking de la propia publicación en que aparezca el artículo.
Al igual que el caso anterior, incluiremos como términos de búsqueda “WUSCHEL-related homeo-
box”. El resultado de eta búsqueda nos da una relación de 829 resultados. Comparando estos resultados
con los obtenidos anteriormente, encontramos un considerable aumento en el número de resultados.
Esto se debe a que Google Académico no sólo incluye artículos científicos, entre los resultados de este
buscador se pueden encontrar: citas, enlace a libros, artículos de revistas científicas, comunicaciones y
ponencias a congresos, informes científicos-técnicos, tesis, tesinas, así como otros trabajos científicos
depositados en repositorios.
Acceda a Google Scholar o Google Académico ubicado en la siguiente dirección:

https://scholar.google.es/
A través de su funcionalidad de «Citado por», es posible consultar los resúmenes de aquellos artículos
que hayan citado el artículo de interés. Además, a través de su función de «Artículos Relacionados»,
Google Académico presenta una lista de artículos estrechamente relacionados, los cuales se ordenan
inicialmente por lo similares que sean estos artículos al resultado original, pero también teniendo en
cuenta la relevancia de cada documento.
Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe obtener las respuestas a las siguientes preguntas:
t {$VÈOUPTBSUÓDVMPTBQBSFDFOFO1VC.FETJJOUSPEVDJNPTi809wDPNPUÏSNJ-
OPEFCÞTRVFEB
t 3FBMJ[BVOöMUSBEPEFMPTSFTVMUBEPTPCUFOJEPTQBSBDPOPDFSDVÈOUPTBSUÓDVMPT
IBOTJEPQVCMJDBEPTFOJOHMÏTFOMPTÞMUJNPTB×PT{$VÈMFTFMSFTVMUBEP
t )B[FTUBNJTNBCÞTRVFEB UÏSNJOPi809wEFOUSPEFMBDBUFHPSÓBi5FNBw
FO
MB#%8FCPG4DJFODF{$VÈMFTFMSFTVMUBEPEFFTUBCÞTRVFEB
t 'JMUSBMPTSFTVMUBEPTEFNPEPRVFÞOJDBNFOUFBQBSF[DBOBRVFMMPTBSUÓDVMPT
RVFTFBOSFWJTJPOFTZRVFQFSUFOF[DBOBMÈSFBEFJOWFTUJHBDJØOi1MBOU4DJFO-
DFTw{$VÈOUPTBSUÓDVMPTBQBSFDFOUSBTöMUSBSMPTSFTVMUBEPT
t 3FBMJ[BMBCÞTRVFEBEFMUÏSNJOPi809wFO(PPHMF4DIPMBS{$VÈMFTFMSFTVMUB-
EPEFFTUBCÞTRVFEB
t $PNQBSBMPTSFTVMUBEPTPCUFOJEPTFO1VC.FE 804Z(PPHMF4DIPMBS{2VÏ
NPUPSEFCÞTRVFEBFTNÈTFöDJFOUF
Práctica 2: Bases de datos biológicas
Las bases de datos (BD) biológicas constituyen una herramienta esencial para almacenar, estructurar,
organizar, actualizar y manipular datos biológicos. La variedad de éstos datos, así como también su
rápido crecimiento, hacen de las BD una herramienta clave. Por ello las BD se han convertido en un
instrumento indispensable para los científicos experimentales del campo de la biología, así como para
aquellos científicos del área de la bioinformática que desarrollan experimentos in silico. Los repositorios
de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, proteínas, estructura
de proteínas, genomas, expresión genética, taxonomía, metabolismo, factores de transcripción, etc.
Nos podemos hacer una idea de la cantidad y variedad de BD disponibles accediendo a la página
Database of Biological Database (DBD), a la cual puede acceder a través del siguiente enlace: http://
www.biodbs.info/
La búsqueda de información publicada así como la descarga de secuencias de moléculas de interés
desde las BD, son unas de las tareas más comunes en bioinformática. Esta práctica cubrirá con cierta
extensión esta labor, y al final de ella seremos capaces de extraer la información precisa de las BD más
comunes, de una manera eficiente. De este modo, los objetivos principales de la presente práctica son:
t Aprender el manejo básico de las BD biológicas.

t Comprender la información que proporcionan este tipo de BD.
Clasificación de BD biológicas
Las BD biológicas se han desarrollado para diversos propósitos y almacenan datos muy heterogéneos.
Según el alcance y cobertura de los datos almacenados, las BD pueden clasificarse en:
t Exhaustivas: abarcan diferentes tipos de datos de muchas especies. Entre este tipo de BD se
encuentran las tres BD de ácido nucleicos, que se localizan en Europa (EMBL, European Mole-
cular Biology Laboratory, IUUQXXXFNCMEF
, Japón (DDJB, DNA Data Bank of Japan, http://
www.ddbj.nig.ac.jp/) y Estados Unidos (NCBI, National Center for Biotechnology Information,

http://www.ncbi.nlm.nih.gov/). Estas tres BD fueron establecidas como una Colaboración
Internacional de BD de Secuencias de Nucleótidos en 1988, para colectar y compartir secuen-
cias de ADN y ARN. Desde entonces, todas ellas están conectadas e intercambian las nuevas
secuencias todos los días. Por lo tanto, independientemente de la BD que se consulte, en las
tres se encuentra depositada la misma información.
t Especializadas: contienen información específica o de especies particulares. Por ejemplo, BD
de genomas de organismos concretos como Drosophila (Flybase, IUUQøZCBTFPSH
, Arabi-
dopsis (TAIR, https://www.arabidopsis.org/) o vertebrados (ENSEMBL, http://www.ensembl.
PSH
; BD de factores de transcripción (PlantTFDB, Plant Transcription Factor Database, http://
planttfdb.cbi.pku.edu.cn/); o BD de rutas metabólicas (KEGG, http://www.genome.jp/kegg/).
Búsqueda de secuencias de ADN

Las BD que contienen las secuencias de Ácidos Nucleicos fueron diseñadas para simplificar el acceso
y consulta, por lo que estas BD suelen proporcionan un interfaz fácil de utilizar. Lo más común es que
estos interfaces sean una página web, lo que posibilita que se acceda a los datos utilizando un simple
navegador web. En las diferentes BD, estos interfaces proporcionan herramientas de búsqueda y ficheros
de texto en los que mostrar la información. Cada uno de los ficheros incluye la información de uno
o varios registros de la BD. Durante la práctica utilizaremos la BD de nucleótidos de Estados Unidos,
gestionada por el NCBI, por ser una de las más sencillas e intuitivas. En cualquier caso, el formato en
el que se encuentran depositadas las secuencias de genes y proteínas en las tres BD principales (i.e.
EMBL, European Molecular Biology Laboratory; DDJB, DNA Data Bank of Japan; y NCBI, National
Center for Biotechnology Information) es el mismo, puesto que se estandarizaron los documentos en los
que se recogen la información necesaria para depositar una secuencia en cualquier BD. A continua-
ción, analizaremos un ejemplo concreto de secuencia nucleotídica depositada en la BD del NCBI. El
procedimiento es muy similar al indicado en la Práctica 1 para buscar información en PubMed, sólo
que ahora trabajaremos con una BD del NCBI diferente; en este caso será la BD “Nucleotide”.
"DDFEBBMTJUJPXFCEFMNCBIVCJDBEPFOMBTJHVJFOUFEJSFDDJØOhttp://www.ncbi.nlm.nih.
gov/Z FOMBDPMVNOBEFMBEFSFDIBIBHBDMJDFOiNucleotidew NBSDPSPKPEFMB'JHVSB
Podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha 1) o a través
de del procedimiento de búsqueda avanzada (flecha 2). Esto último es generalmente preferible, puesto
que podemos afinar mucho más nuestra búsqueda.
Imaginemos que queremos buscar la secuencia del mensajero de la adenosina quinasa (enzima
que cataliza la formación de adenosina monofosfato, AMP, a partir de adenosina más ATP) de la es-
pecie Arabidopsis thaliana usando el procedimiento de búsqueda avanzada. Para ello introduciremos
sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos “Organism” y
“Title”, respectivamente.
Entre los resultados obtenidos vamos a seleccionar aquellas resultados que se incluyen dentro de
la BD Refseq, la cual corresponde a una colección de secuencias no redundantes y bien anotadas.
Este filtro se puede aplicar haciendo clic en la etiqueta “Refseq” (recuadro rojo) o bien al inicio de la
búsqueda avanzada, indicando dentro de la categoría “Filter” el término “Refseq”.
En las BD todas las nuevas secuencias que se van introduciendo reciben un número o referencia
que las identifica, en este caso entre los resultados obtenidos seleccionaremos la secuencia con núme-
ro de identificador “NM_111817.3” (subrayado en rojo). Si pinchamos en el enlace “FASTA” (flecha),
tendríamos la secuencia en un formato utilizable en distintos programas bioinformáticos.
Una secuencia en formato FASTA, bien de nucleótidos o de aminoácidos, tiene una sintaxis carac-
terizada por un primer párrafo que obligatoriamente empieza por el símbolo “mayor que” (>) seguido
por un nombre, número o referencia que identifica la secuencia en cuestión; este párrafo es meramente
informativa. En el segundo párrafo se encuentra la secuencia de la molécula propiamente dicha. No
hay más párrafos en el formato FASTA.
Consulta de secuencias proteicas

El procedimiento de búsqueda es totalmente equiparable al de las búsquedas de secuencias nucleotídi-
cas, sólo que la BD del NCBI sobre la que se ha de trabajar es la de “Protein”. Podemos acceder a ella
desde la página principal de NCBI; pinchamos en el enlace correspondiente a “Protein” y entramos
en la página inicial.
De nuevo, podemos introducir los términos de búsqueda, bien en la ventana de búsqueda (flecha
1) o a través de del procedimiento de búsqueda avanzada (flecha 2), lo cual permite afinar mucho más
nuestra búsqueda.
La información que dispone la BD incluye la secuencia de aminoácidos de la proteína. En este caso
realizaremos la búsqueda de la secuencia proteica de la adenosina quinasa de la especie Arabidopsis
thaliana usando el procedimiento de búsqueda avanzada. Para ello, al igual que en el caso anterior,
introduciremos sucesivamente los términos “Arabidopsis thaliana” y “adenosine kinase” en los campos
“Organism” y “Title”, respectivamente. Tras realizar este proceso de búsqueda aparecen aparecen 17
proteínas de la especie Arabidopsis thaliana que incluyen el término “adenosine kinase“.
Al igual que con la BD de nucleótidos, entre los resultados obtenidos vamos a seleccionar aquellas
proteínas que se incluyen dentro de la BD Refseq, la cual tiene la ventaja de que se trata de una colec-
ción de secuencias de proteínas no redundantes y bien anotadas. Este filtro se puede aplicar haciendo
clic en la etiqueta “Refseq” (flecha) o bien al inicio de la búsqueda avanzada, indicando dentro de la
categoría “Filter” el término “Refseq”.
Una vez filtrado los resultados, aparecen 4 proteínas, entre las cuales hay 2 secuencias de la pro-
teína adenosine kinase 1, una con un tamaño de 302 aa y otra de 344 aa. A continuación pinchamos
en el enlace “FASTA” de la proteína de 344 aa y tendremos la secuencia en un formato adecuado para

realizar diferentes análisis bioinformáticos.
En esta parte de la práctica, siguiendo los procedimientos descritos anteriormente, el alumno debe
realizar las siguientes tareas:
t #VTDBSMBTFDVFODJBOVDMFPUÓEJDBFOGPSNBUP'"45"ZFMJEFOUJöDBEPSEFMNFO-
TBKFSPEFMBBEFOPTJOBRVJOBTBEFUPNBUF Solanumlycopersicum

t &ODPOUSBSMBTFDVFODJBQSPUFJDBFOGPSNBUP'"45"ZFMJEFOUJöDBEPSEFMBade-
nosine kinase2 EFUPNBUF
Estructuras tridimensionales de proteínas

El punto de partida para obtener la estructura tridimensional de macromoléculas lo encontramos en el
enlace “Domains & Structures” situado la página principal del NCBI, en la columna de la izquierda.
Pinchando en él, llegaremos a la página que nos permite acceder a las BD de estructuras moleculares
tridimensionales.
Estas dos BD que vemos recuadradas en la figura, se refieren a la colección de estructuras 3D de

una serie de dominios de proteínas conservados a lo largo de la evolución (CDD), y a la colección de
estructuras 3D de macromoléculas.
Para buscar información en ellas se operaría exactamente igual que en el caso de las BD de Nu-
cleotide y Protein. Por ello, no vamos a hacer ninguna indicación especial en ese sentido.
No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas específicos.
NCBI utiliza el visualizador Cn3D como estándar. La descarga del programa Cn3D se realiza desde la
misma página “Domains & Structures” accesible desde la página principal del NCBI. Una vez en ella,
activamos la pestaña “Tools”, y desde aquí pinchamos en el enlace al programa Cn3D.
Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposición de ver estruc-
turas moleculares, bien moléculas completas o bien dominios de proteínas conservados durante la
evolución. Accedemos a la BD de dominios conservados (CDD) y realizamos la búsqueda del termino
“MADS”. El nombre de la familia multigénica MADS-box deriva de las iniciales de sus cuatro miembros
fundadores: MCM1 (Saccharomyces), AGAMOUS (Arabidopsis), DEFICIENS (Antirrhinum) y SERUM
RESPONSE FACTOR (Homo sapiens). Estas proteínas actúan como factores de transcripción, propios
de un buen número de eucariotas, destacándose su presencia en animales, plantas y en levaduras. A
su vez, intervienen en múltiples funciones, entre ellas destaca que están involucrados en el desarrollo
floral de muchas plantas.
Durante el desarrollo de la práctica, veremos como ejemplo la estructura molecular del dominio
MADS a través del programa Cn3D, así como algunos aspectos básicos de su manejo. Si hacemos clic
en la etiqueta “MADS: MADS domain” (primer resultado, flecha), accederemos a la siguiente página:
En cuanto a su estructura, las proteínas MADS-box poseen sus dominios de interacción con el
ADN en su zona N-terminal (de unos 56 aminoácidos). Las secuencias de aminoácidos que definen
el dominio MADS pueden observarse al final de la página (recuadro rojo), en la sección “Sequence
Alignment”.
Haciendo clic en la figura del dominio MADS (flecha) se inicia la descarga de un fichero llamado
“cddsrv.cn3” que podemos abrir con el programa Cn3D. Al abrir dicho fichero podremos ver la es-
tructura tridimensional del dominio MADS. Como podemos ver, se abren 2 ventanas que contienen
por un lado la secuencia aminoacídica que define al dominio:
Y por otro lado la ventana correspondiente a la estructura 3D del dominio MADS:
En la imagen se muestra que el dominio MADS está formado por dos hélices alfa (cilindros verdes)
y dos láminas beta (rectángulos amarillos).
Durante el transcurso de esta práctica sólo hemos visto los aspectos básicos del manejo del programa
Cn3D, puede ampliar sus conocimientos sobre esta herramienta siguiendo la guía de utilización del
programa (menús, opciones, etc.) que encontrará en el siguiente enlace: https://galter.northwestern.
edu/guides-and-tutorials/structure-viewers.pdf
Identificación de ORF (Open Reading Frame, marco abierto de lectura)

El término ORF se refiere a una parte de una secuencia nucleotídica que tiene la potencialidad de
codificar una proteína; es decir, que debe contener un codón o triplete de iniciación y un codón de
terminación.
La búsqueda de ORF’s en una secuencia de nucleótidos tiene muchas utilidades en genética mole-
cular. Entre ellas, puede ayudar a la predicción de genes, a la determinación del origen de pseudogenes,
etc. Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si presenta alguna
relación con secuencias de genes ya conocidos, y si es así, tratar de deducir su posible función fisioló-
gica, metabólica, celular. Para ello el primer paso es traducir este cDNA en proteína.
Imaginemos que la secuencia de cDNA problema es la siguiente:
>cDNA_problema_1
AAAATCTCTTTACTACCAGCAAGTTGTTTTCTTGCTAACTTCAAACTTCTCTTTCTCTTGTTCCTCTCTAAGTCTT-
GATCTTATTTACCGTTAACTTTGTGAACAAAAGTCGAATCAAACACACATGGAGCCGCCACAGCATCAGCAT-
CATCATCATCAAGCCGACCAAGAAAGCGGCAACAACAACAACAACAAGTCCGGCTCTGGTGGTTACACGT-
GTCGCCAGACCAGCACGAGGTGGACACCGACGACGGAGCAAATCAAAATCCTCAAAGAACTTTACTACAACA-
ATGCAATCCGGTCACCAACAGCCGATCAGATCCAGAAGATCACTGCAAGGCTGAGACAGTTCGGAAAGATT-
GAGGGCAAGAACGTCTTTTACTGGTTCCAGAACCATAAGGCTCGTGAGCGTCAGAAGAAGAGATTCAACGGA-
ACAAACATGACCACACCATCTTCATCACCCAACTCGGTTATGATGGCGGCTAACGATCATTATCATCCTCTACTT-
CACCATCATCACGGTGTTCCCATGCAGAGACCTGCTAATTCCGTCAACGTTAAACTTAACCAAGACCATCATCTC-
TATCATCATAACAAGCCATATCCCAGCTTCAATAACGGGAATTTAAATCATGCAAGCTCAGGTACTGAATGTGGT-
GTTGTTAATGCTTCTAATGGCTACATGAGTAGCCATGTCTATGGATCTATGGAACAAGACTGTTCTATGAATTA-
CAACAACGTAGGTGGAGGATGGGCAAACATGGATCATCATTACTCATCTGCACCTTACAACTTCTTCGATAGA-
GCAAAGCCTCTGTTTGGTCTAGAAGGTCATCAAGAAGAAGAAGAATGTGGTGGCGATGCTTATCTGGAACATC-
GACGTACGCTTCCTCTCTTCCCTATGCACGGTGAAGATCACATCAACGGTGGTAGTGGTGCCATCTGGAAGTAT-
GGCCAATCGGAAGTTCGCCCTTGCGCTTCTCTTGAGCTACGTCTGAACTAGCTCTTACGCCGGTGTCGCTCGG-
GATTAAAGCTCTTTCCTCTCTCTCTCTCTTTCGTACTCGTATGTTCACAACTATGCTTCGCTAGTGATTAATGAT-
GCAGTTGTTATATTAGTAGTTAACTAGTTATCTCTCGTTATGTGTAATTTGTAATTACTAGCTAAGTATCGTCTA-
GGTTTTAATTGTAATTGACAACCGTTTTATCTCTATGATGAATAAGTTAAAATTTTA
Lo primero que vamos a hacer es tratar de ver si contiene algún marco abierto de lectura (Open
Reading Frame – ORF), es decir, si contiene un conjunto de codones que son capaces de traducirse
a proteína. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el NCBI. Hacemos
clic en el vínculo correspondiente a esa utilidad, que se encuentra en la etiqueta “Tools” de la entrada
“Sequence analysis” y entramos en la página correspondiente a la búsqueda de ORF’s.
La nueva página permite introducir el identificador de una de las secuencias ya contenidas en las
BD, o analizar una secuencia problema. Esto último es lo que vamos a hacer nosotros. En el cuadro
grande en blanco vamos a introducir la secuencia problema en formato FASTA.
El programa da como resultado los posibles ORF’s, tanto para la hebra plus (+) como para la hebra
minus (-), mostrando 3 posibilidades para cada una de las hebras. De todos los ORF’s que aparecen en
cada una de las 3 pautas de lectura de las hebras plus (+) y minus (-). Empezaremos por investigar el
mayor de todos (en este caso 879 nucleótidos). En la figura siguiente está recuadrado en rojo y mar-
cado con una flecha. Pinchamos sobre él, y aparecerá una nueva pantalla con el ORF seleccionado, ya
aislado y con su traducción a proteína.
Nos quedaremos con la secuencia de la proteína que se codificaría a partir de este ORF. Para ello,
utilizando el bloc de notas, copiaríamos la secuencia y la editaríamos convenientemente en formato
FASTA. Nos quedaría algo así como:
>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR-
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVNVKL-
NQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMDHHYS-
SAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN
Esta secuencia será objeto de estudio en la próxima práctica para ilustrar el uso de la herramienta
BLAST. No obstante, en este punto de la práctica, el alumno deberá analizar la secuencia del cDNA
problema mostrado a continuación e indicar en formato FASTA cuál sería su secuencia proteica pre-
dicha más probable.
>cDNA_problema_2
ACATACATACATACATTTGTAGAGTTGTTGTTGTTTTATGATGGAACATCAACACAACATAGAAGATGGTGGTAAAA-
ATAGTAACAACAGTTTCCTGTGCAGGCAAAGTAGTAGCCGTTGGACGCCAACGAGCGATCAGATAAGAATATTGA-
AGGATCTCTACTACAACAATGGAGTTAGGTCTCCAACTGCTGAACAGATTCAGAGGATATCTGCTAAGTTGAGA-
CAGTACGGTAAGATTGAAGGCAAAAATGTGTTTTATTGGTTTCAGAACCATAAAGCTCGTGAAAGACAAAAGAAGA-
GGCTCATTGCTGCTGCCTCTGCCACTGATAATAATAATATCTCTTCCATGCAAATGATTCCACATCTTTGGAGATCTCCT-
GATGATCACCACAAGTACAACACTACTACTACTAATCCAGGTGTTCAGTGTCCATCACCATCTTCACATGGGGTATTAC-
CAGTGGTACAGACTGGAAACTATGGTTATGGAACTTTGGCTATGGAGAAGAGCTTTAGGGAGTGTTCAATATCAC-
CACCAGGTGGTAGTTATCATCAAAATTTGACATGGGTTGGTGTTGATCCTTACAACAATATGAGTACTACTTCTCCAG-
CAACTTACCCTTTTCTTGAAAAAAGCAACAACAAACACTATGAAGAAACCCTAGATGAAGAGCAAGAAGAAGAAA-
ATTACCAAAGGGGTAACTCTGCTTTAGAAACTCTGTCACTTTTCCCCATGCATGAAGAGAACATCATCTCAAATTTCT-
GCATCAAACATCATGAATCTTCTGGAGGATGGTACCATTCTGATAATAACAATTTGGCTGCTCTTGAACTTACTCTCA-
ACTCTTTCCCCTAAATTATGAACTAGTCTATCTTATGTTTGTAGTAAGTAAGTACTAATCTAATTTGGTATGTGCCAAGC-
TATTTGGACCTTATGGTAATGTTAATTAATCTTAATCTAAGTTGTACTAATATTATTAATTAAAGTATGGATAAGTTTATT
Mapas de restricción
Un mapa de restricción es la ubicación dentro de una secuencia nucleotídica de los sitios de corte
para diferentes enzimas. Generalmente, queremos conocer estos lugares de cortes para varios objetivos
relacionados con la tecnología del DNA recombinante. Para realizar este tipo de análisis de restricción
se utilizan herramientas bioinformáticas, las cuales localizan en la secuencia nucleotídica las dianas
de diferentes enzimas de restricción. Para hacer estos análisis necesitamos una BD que contenga las
secuencias reconocidas por las diferentes enzimas. Posteriormente, el programa utilizará esta BD para
localizar las diferentes dianas de restricción presentes en nuestra secuencia problema. Existen varias
herramientas bioinformáticas que nos indican las dianas de corte de enzimas de restricción. Algunas
de estas herramientas son:
WatCut http://watcut.uwaterloo.ca/watcut/watcut/template.php
remap http://www.bioinformatics.nl/cgi-bin/emboss/remap
Durante el desarrollo de esta práctica, utilizaremos la herramienta Webcutter 2.0 para la búsqueda
de dianas de restricción.
"DDFEBBMTJUJPXFCEFWebcutter 2.0VCJDBEPFOMBTJHVJFOUFEJSFDDJØO
http://rna.lundberg.gu.se/cutter2/
Como secuencia problema utilizaremos la secuencia nucleotídica anterior, denominada como

“cDNA_problema_2“. Una vez en la página de Webcutter 2.0 nos desplazaremos hasta la sección “Paste
the DNA sequence into the box below” y pegaremos nuestra secuencia problema.
En la sección “Please select the type of analysis you would like” indicaremos que se trata de una
secuencia linear; mientras que en la sección “Please indicate how you would like the restriction sites
displayed” indicaremos que nos muestre el mapa de restricción y la lista de los sitios de restricción
ordenados secuencialmente por número de base, tal y como se muestra en la siguiente figura.
En la sección “Please indicate which enzymes to include in the display”, indicaremos que tipo de
enzimas queremos que aparezcan en la página de resultados, en nuestro caso “All enzymes”. Posterior-
mente, seleccionaremos que tipo de enzimas queremos incluir en el análisis dentro de la sección “Please
indicate which enzymes to include in the analysis”. En este caso utilizaremos sólo aquellas enzimas cuyas
dianas de restricción sean igual o mayor de 6 bases. Finalmente haremos clic en “Analyze sequence”.
Después de unos segundos, se abrirá una nueva página con los resultados del análisis. En primer
lugar aparece el mapa de restricción “Graphic map” (página siguiente).
En segundo lugar podemos encontrar la tabla donde se indican los sitios de restricción ordenados
secuencialmente por número de base, como se muestra en la siguiente figura.
Por último, antes de terminar esta práctica, el alumno deberá buscar las dianas de restricción de
la secuencia nucleotídica problema que se muestra a continuación. Para ello utilizará sólo aquellas
enzimas cuyas dianas de restricción sean igual o mayor de 8 bases.
>Secuencia_problema
GAAAAGAAAAGTGAACAATACACTGTTTTTTACTAATTATTTTTTAGAAAAAGAAAAAAGGAATATTGTGT-
GTTTGCTTTTTTTTCTGACTAGTAGTATTGCTAACTATGTATTCCATTAAGGATTTGCTGTGAAAAAGCCTGATAT-
CAGTAAGCATAAAACTCGGGAGATCACTTACACACACACACCCTCGTAAAAAAGAGAAGAGAGATTTACT-
GTTAAACAGAGGTTTTTTTCCATTTCTTTTTTTTTTCTCAGTGTGTGTGAGAGAGAGAGATGGTTTTCATA-
GGCAAAAACAAATAGAAAGGAACAAAATTTAGAGTGAAGAAGAAAGTGTGTGAGAGAATAATGGAGGGT-
GGTTCTAGTGGAAATACTAGTACATCTTGTTTAATGATGATGGGATATGGAGATCATGAGAACAACAACAA-
CAACAATGGAAATGGTAATGGAAATGGAAATGGAAATGTAACAATTTGTGCTCCTCCAATGATGATGATGAT-
GCCTCCTCCTCCTCCTTCTTTAACTAACAATAACAATGCAGAAACAAGCAGCAACAACATCCTTTTTCTTCCTTT-
CATGGACAACAACAACAATAATCCTCAAGAAGACAACAACTCTTCTTCTTCTTCCATCAAGTCAAAGATTAT-
GGCTCATCCTCACTACCATCGTCTCTTGACTGCTTATCTCAATTGTCAAAAGATAGGAGCTCCGCCAGAAGTGGT-
GGCAAGGCTAGAGGAAATATGTGCCACGTCAGCAACAATGGGCCGTAGCAGTAGTAGTAGTGGTGGTGGAAT-
CATTGGAGAAGATCCTGCACTAGATCAGTTCATGGAGGCTTATTGTGAGATGCTGACAAAATATGAACAAGA-
ACTCTCAAAACCCTTCAAGGAAGCCATGGTTTTTCTTTCAAGAATTGAGTGTCAGTTCAAAGCTTTAACTCTT-
GCACCTAATTCTTCTCATGAATCTGCTTTGGGCGAGGCAATGGATAGAAATGGATCATCTGATGAAGAGGTT-
GACGTGAATAACAGTTTCATCGACCCCCAGGCTGAGGATAGAGAGCTCAAAGGTCAATTGTTGCGTAAGTA-
CAGCGGTTACTTGGGAAGCCTTAAGCAGGAGTTCATGAAGAAGAGGAAGAAAGGCAAGCTGCCTAAGGAA-
GCAAGGCAACAATTGGTGGATTGGTGGCTTAGACATATTAAATGGCCATATCCATCGGAATCTCAGAAGCTTG-
CACTAGCTGAATCAACGGGATTGGACCAGAAGCAAATAAACAACTGGTTTATCAATCAAAGAAAGAGGCATT-
GGAAACCATCAGAAGATATGCAGTTTGTTGTGATGGATGCTGCTCATCCACATTACTATATGGATAATGTTCTT-
GCTAACCATTTCCCAATGGATATGACACCCTCTCTCCTCTGAATTAAGATTTGTCATTATTAGTATCAAGGAT-
GTTTAATTAATTTGCATATTACTTGTGTGCATGTAGTAGTACAAGGTATTGTGACACAATCAACTTTTTATTAGAC-
CAAATATATAAAGTGCTTGTAATAGATCTTTCTATTATCATCTTTAATTATAGAATTAAATAGTTTGTACTTGCTAAA-
AATTTTGAAAAATAA
Práctica 3: BLAST, una herramienta de análisis de secuencias
BLAST (Basic Local Alignment Search Tool) es un programa informático de alineamiento de secuen-
cias, ya sea de ADN o de proteínas, que puede comparar una secuencia problema con otra secuencia
o con todas las secuencias que se encuentren en una base de datos (como por ejemplo la base de datos
de Refseq que contiene una colección de secuencias de proteínas no redundantes y bien anotadas)
encontrando las secuencias de la base de datos que tienen mayor parecido a la secuencia problema.
BLAST fue creado y es mantenido por el NIH (National Institutes of Health) a través del NCBI
(National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/) siendo de dominio
público y de uso gratuito. La ventaja de utilizar BLAST a través del formulario que provee el NCBI es
que el usuario no tiene que mantener al día las bases de datos y además la búsqueda se realiza muy
rápidamente.
BLAST utiliza el algoritmo Smith-Waterman que se basa en el uso de programación dinámica para
garantizar que el alineamiento local encontrado es óptimo con respecto a un determinado sistema de
puntuación como las matrices tipo BLOSUM o PAM. Una matriz de este tipo contiene la puntuación
(score) que se le da al alinear un nucleótido o un aminoácido de la posición X de la secuencia A con
otro aminoácido de la posición Y de la secuencia B. El uso de este tipo de matrices permite a BLAST
dar una puntuación a los alineamientos que realiza. Además, BLAST utiliza un algoritmo heurístico
para calcular la significación de los resultados, lo que nos dará un parámetro con el que valorar los
resultados que se han obtenido tras la búsqueda.
Durante esta práctica se utilizará el programa BLAST para analizar tanto secuencias de ADN como
de aminoácidos. Durante su transcurso, aprenderemos a extraer, de forma estructurada y eficaz, la
información necesaria de las diferentes bases de datos moleculares. De este modo, el objetivo principal
de esta práctica es:
t Adquirir habilidades y destrezas en el análisis de secuencias de ADN y proteínas.

Accediendo a las secuencias

En la práctica anterior (Práctica 2: Bases de datos biológicas) fueron objeto de estudio diferentes bases
de datos que ofrece el NCBI y la manera más común de realizar búsquedas en ellas. Hasta ahora lo que
tenemos es una secuencia de nucleótidos o de aminoácidos, pero no sabemos nada de ella, ni su función,
ni su familia ni el parentesco que guarda con otras secuencias de la misma especie o de otras especies.
"DDFEBBMTJUJPXFCEFMNCBIVCJDBEPFOMBTJHVJFOUFEJSFDDJØO
http://www.ncbi.nlm.nih.gov/
3FBMJDFMBCÞTRVFEBEFMBTFDVFODJBOVDMFPUÓEJDBDPOJEFOUJöDBEPSiHO850244.1w
En este momento debe encontrarse en una página con el consiguiente contenido:
El identificador “HO850244.1” corresponde a una secuencia de un EST (Expressed Sequence Tag,

o cDNA anónimos) de Arabidopsis thaliana similar al gen que codifica la adenosine kinase 1. El NCBI
muestra la secuencia en formato “EST”, el cual indica la siguiente información:
CAMPO DESCRIPCIÓN
dbEST Id: 71461818

EST name: AT74 Identificador y nombre de la secuencia en la base
GenBank Acc: HO850244 de datos de EST y GenBank
GenBank gi: 309381023
Identificador del clon a partir del cual se ha aislado

CLONE INFO
esta secuencia y tipo de ADN con el que se ha ge-
Clone Id: AT74
nerado dicho clon
DNA type: cDNA
PRIMERS Cebadores utilizados para obtener la secuencia de

Sequencing: M13 Forward, RV-M Reversed interés. Información sobre si la secuencia contiene
PolyA Tail: no o no cola de poliA
SEQUENCE
CACTTGAAGAAGCCTGAGAACTGGGCTCTGGTTGGGAAGGCCA-
Secuencia amplificada con los cebadores anterior-
AGTTTTATTACATTGCTGGATTCTTCCTCACGGTATCACCAGAATCCATT-
mente descritos
CAGTTGGTACGTGAACATGCTGCTGCAAACAACAAGGTGTTCACGAT-
GAACCTTTCTGCTCCATTCATCTGT
Entry Created: Oct 20 2010 Fecha de creación y última actualización del regis-
Last Updated: Oct 20 2010 tro
COMMENTS
Observaciones sobre cómo se ha obtenido la se-
The sequence was obtained from samples subjected to vitrification
cuencia
solution treatment of cryopreservation
CAMPO DESCRIPCIÓN
PUTATIVE ID
Función putativa y origen de esta asignación de
Assigned by submitter
función
adenosine kinase 1
LIBRARY
Lib Name: LIBEST_026723 Arabidopsis vitrification solution
treatment
Library Organism: Arabidopsis thaliana
Ecotype: Col-0
Tissue type: Seedlings
Develop. stage: 2d and 3d
Lab host: E. coli DH5-alpha
Vector: pMD18-T simple vector
R. Site 1: EcoRI
Descripción de la genoteca: nombre, organismo,
Description: 2 & 3-day Arabidopsis thaliana seedlings were immer-
ecotipo y protocolo utilizado para obtener la geno-
sed in loading solution (MS liquid medium+2 M glycerol+0.4 M su-
teca a partir de la cual se ha obtenido la secuencia
crose) for 20 minutes at room temperature. Loading solution was
removed from the cryovial and rapidly replaced by filtered sterilized
cryoprotective solution PVS2 (30% w/v glycerol, 15% w/v ethylene
glycol and 15% w/v DMSO in liquid MS medium supplemented with
0.4 M sucrose) and left at 0degC for 50 minutes. cDNA library was
derived from these seedlings. cDNA synthesis was initiated using
a oligo(dT) primer. Double-stranded cDNA was blunted, digested
with EcoRI and MseI restriction endonuclease, ligated to EcoRI and
MseI adaptors, using cDNA-AFLP to screen the different expression
gene, and cloned into the pMD18-T simple vector.
SUBMITTER
Name: Ren Li
Lab: Ornamental Plant Germplasm Laboratory
Institution: School of Agriculture and Biology, Shanghai Jiaotong
Datos de contacto del investigador que han depo-
University
sitado la secuencia en la base de datos de EST del
Address: NO.800, Dong Chuan Rd., Shanghai, P. R. China

NCBI
Tel: +86 21 34205731
Fax: +86 21 34205736
E-mail: renliaqx@gmail.com
CITATIONS
Title: Comparative cDNA-AFLP analysis reveals transcriptional profi-
ling of 2 & 3-day rabidopsis thaliana seedlings in response to vitrifi-
cation solution treatment of cryopreservation Datos sobre como citar esta secuencia: Nombre del
Authors: Ren,L., Zhang,D., Shen,X.H. artículo, autores, fecha de publicación, revista, etc.
Year: 2010
Status: Unpublished
El NCBI no sólo ofrece el formato “EST” para mostrar información sobre una secuencia. Si hacemos
clic sobre el etiqueta “EST” (flecha), aparece un desplegable con los diferentes formatos en los que el
NCBI permite visualizar la información sobre una secuencia (recuadro rojo). En la práctica anterior
(Práctica 2: Bases de datos biológicas) examinamos el formato FASTA, válido tanto para secuencias
de nucleótidos como de aminoácidos, el cual nos proporciona las secuencias en un formato utilizable
en distintos programas bioinformáticos.
A continuación seleccionaremos la pestaña “Genbank” y nos detendremos en describir qué tipo

de información recoge cada uno de los epígrafes de este formato.
CAMPO DESCRIPCIÓN
LOCUS Identificador, longitud, tipo de mo-

HO850244, 165 bp, mRNA, linear, EST 20-OCT-2010 lécula, división a la que pertenece la
secuencia y fecha de la última modifi-
cación
DEFINITION
AT74 Arabidopsis vitrification solution treatment library Arabidopsis tha- Breve descripción de la secuencia
liana cDNA clone AT74 similar to adenosine kinase 1, mRNA sequence.
Identificador único de entrada, no varía
ACCESSION HO850244 aunque se modifique la secuencia
Número de versión de la secuencia.

VERSION HO850244.1 GI:309381023 GI identificador único de la secuencia,
pero en este caso cambia con las mo-
dificaciones
Origen de la muestra a partir de la cual

DBLINK BioSample: LIBEST_026723 se obtuvo la secuencia
KEYWORDS EST. Palabras clave que describen a la se-
cuencia
CAMPO DESCRIPCIÓN
SOURCE
Arabidopsis thaliana (thale cress)
ORGANISM Arabidopsis thaliana Nombre científico del organismo
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Sper-
matophyta; Magnoliophyta; eudicotyledons; Gunneridae; Pentapetalae;
rosids; malvids; Brassicales; Brassicaceae; Camelineae; Arabidopsis
REFERENCE 1 (bases 1 to 165)
AUTHORS Ren,L., Zhang,D. and Shen,X.H. Datos sobre como citar esta secuencia:
TITLE Comparative cDNA-AFLP analysis reveals transcriptional profiling of Nombre del artículo, autores, fecha de
2 & 3-day Arabidopsis thaliana seedlings in response to vitrification solu- publicación, revista, etc.
tion treatment of cryopreservation
JOURNAL Unpublished (2010)
COMMENT
Contact: Ren Li.
Ornamental Plant Germplasm Laboratory School of Agriculture and Biolo-
gy, Shanghai Jiaotong University NO.800, Dong Chuan Rd., Shanghai, P. R.
China Tel: +86 21 34205731 Comentarios y observaciones sobre la
Fax: +86 21 34205736 secuencia
Email: renliaqx@gmail.com
The sequence was obtained from samples subjected to vitrification solu-
tion treatment of cryopreservation
Seq primer: M13 Forward, RV-M Reversed
POLYA=No
FEATURES
Location/Qualifiers
Source 1..165 /organism=”Arabidopsis thaliana”/mol_type=”mRNA”/
ecotype=”Col-0”/db_xref=”taxon:3702”/clone=”AT74”/ tissue_
type=”Seedlings” /dev_stage=”2d and 3d”/lab_host=”E. coli DH5-alpha” /
clone_lib=”LIBEST_026723 Arabidopsis vitrification solution treatment li-
brary”/note=”Vector: pMD18-T simple vector; Site_1: EcoRI; 2 & 3-day Ara-
bidopsis thaliana seedlings were immersed in loading solution (MS liquid
medium+2 M glycerol+0.4 M sucrose) for 20 minutes at room temperatu- Características: contiene la información
re. Loading solution was removed from the cryovial and rapidly replaced biológica de la secuencia
by filtered sterilized cryoprotective solution PVS2 (30% w/v glycerol, 15%
w/v ethylene glycol and 15% w/v DMSO in liquid MS medium supple-
mented with 0.4 M sucrose) and left at 0degC for 50 minutes. cDNA library
was derived from these seedlings. cDNA synthesis was initiated using a
oligo(dT) primer. Double-stranded cDNA was blunted, digested with Eco-
RI and MseI restriction endonuclease, ligated to EcoRI and MseI adaptors,
using cDNA-AFLP to screen the different expression gene, and cloned into
the pMD18-T simple vector.”
ORIGIN
1 cacttgaaga agcctgagaa ctgggctctg gttgggaagg ccaagtttta ttacattgct Secuencia que contiene el identifica-
61 ggattcttcc tcacggtatc accagaatcc attcagttgg tacgtgaaca tgctgctgca dor seleccionado
121 aacaacaagg tgttcacgat gaacctttct gctccattca tctgt
Análisis BLAST de secuencias de ADN

En esta sección utilizaremos la secuencia anterior (identificador “HO850244.1”) en formato FASTA
para realizar un análisis BLAST.
"DDFEBBMTJUJPXFCEFMNCBIEPOEFTFBMPKBMBIFSSBNJFOUBBLASTBUSBWÏTEFMBTJHVJFOUFEJSFDDJØO
IUUQCMBTUODCJOMNOJIHPW#MBTUDHJ
Existen distintos tipos de programas BLAST para el análisis de secuencias tanto de nucleótidos
(blastn, tblastx, tblastn) como de proteínas (blastp, blastx). Para saber cuál utilizar es fundamental
tener en cuenta 3 factores: (1) la naturaleza de la secuencia problema, (2) el objetivo de la búsqueda y
(3) la base de datos donde se va a llevar a cabo la búsqueda. La siguiente tabla muestra las diferentes
versiones del programa BLAST:
En nuestro caso utilizaremos blastn (nucleotide blast, flecha roja).

Una vez en esta página pegaremos la secuencia en formato FASTA en la ventana en blanco de la
sección “Enter accession number(s), gi(s), or FASTA sequence(s)”. A continuación seleccionaremos una
base de datos contra la que comparar nuestra secuencia problema. El análisis puede realizarse frente a
diferentes bases de datos (recuadro rojo). En este caso hemos elegido la base de datos “nucleotide co-
llection (nr/nt)”, que contiene una colección de secuencias nucleotídicas no redundantes (acrónimo nr).
Entre los posibles algoritmos que pueden ser utilizados para analizar la secuencia problema, el
algoritmo “megablast” es el más restrictivo entre los tres posibles, debido a que está diseñado para
identificar la propia secuencia problema (el parecido es del 100%) o para encontrar secuencias muy
parecidas (mayor del 95% de residuos nucleotídicos idénticos). En cuanto al algoritmo “discontiguous
megablast”, es más sensible y eficaz que el algoritmo “blastn” porque ignora algunas bases (la tercera
de cada codón) y porque al comparar la secuencia problema con la diana no es necesario que ambas
sean idénticas, sino que permite la presencia de discontinuidades.
En este caso utilizaremos el algoritmo “megablast”. Finalmente para ejecutar la búsqueda seleccio-
naremos “Show results in a new window” y haremos clic en el botón “BLAST”.
En la primera sección de la página de resultados, desplegando la etiqueta “Search Summary” (fle-

cha) se puede observar información relativa a la búsqueda donde por ejemplo se puede ver el número
de secuencias almacenadas en la base de datos utilizada (recuadro rojo), en este caso en la colección
no-redundante.
Por otro lado la sección “Graphic Summary” ofrece una representación gráfica de los resultados de
la búsqueda. Cada una de las barras dibujadas representa cada uno de los resultados, ordenados por
relevancia de forma descendente. De esta forma las líneas que están en la parte superior son las más
relevantes mientras que las de la parte inferior lo son menos. La primera línea de la parte superior
corresponde a la propia secuencia problema. La relevancia también se muestra a través del color, siendo
las líneas de color rojo y rosa las de mayor puntuación y las de azul y verde las que menos.
La sección “Descriptions” muestra la lista de resultados en el siguiente formato:

t Description: el nombre del resultado.
t Max Score: la puntuación máxima de alineamiento.
t Total Score: otra puntuación de alineamiento, puede diferir de Max Score si la consulta coincide
con un único registro de la base de datos en múltiples regiones.
t Query Coverage: qué porcentaje de la consulta tiene similitud con el resultado dentro de la
base de datos.
t E-value: es probablemente la mejor medida de calidad del resultado. Los números más bajos
significan más hits, siendo 0.0 el mejor valor posible.
t Accession: identificador del resultado dentro del NCBI.
Finalmente en la sección “Alignments” se muestran los alineamientos HSP (pares de alta puntua-
ción, High Score Pairs).
Las barras verticales representan emparejamientos entre la secuencia que usamos para la búsqueda
(Query) y las secuencias de la base de datos (Sbjct), los espacios que no tienen barra vertical significa
que en ambas secuencias hay diferentes nucleótidos, mientras que las líneas horizontales son huecos
o gaps (en el ejemplo que se muestra no existe ningún gap), que deja BLAST para realizar mejor el
alineamiento.
En el ejemplo que se representa, la secuencia con identificador “BT033101.1” es el resultado más
probable del análisis blastn. Si accedemos a la página que contiene dicha secuencia podremos observar
la información que recoge el NCBI sobre esta secuencia en formato “GenBank”. Entre esta información
podemos distinguir los campos anteriormente descritos. Entre ellos, dado que se trata de una secuencia
de tipo CDS (CoDing Sequence), merece la pena reseñar la información que recoge el campo “FEA-
TURES”, donde además de información biológica relevante podemos encontrar la secuencia proteica
que codifica dicho CDS (recuadro rojo), cuyo número de identificación es “ACF16163.1” (indicado
con una flecha roja).
Como tarea a realizar, utilizando los conocimientos adquiridos, en esta parte de la práctica el
alumno debe realizar las siguientes tareas:
"QBSUJSEFMBTFDVFODJBEFM&45EFUPNBUFDPOOÞNFSPEFJEFOUJöDBEPSiBF113600.1w
t &ODPOUSBSFMUFKJEPBQBSUJSEFMDVBMTFIBPCUFOJEPEJDIP&45
t 3FBMJ[BSVOBOÈMJTJT#-"45FJEFOUJöDBSFMSFTVMUBEPNÈTQSPCBCMF
t {2VÏOÞNFSPEFJEFOUJöDBEPSUJFOFEJDIBTFDVFODJB
t {2VÏUJQPEFNPMÏDVMBFT
t {$VÈMFTFMOÞNFSPEFJEFOUJöDBEPSEFMBQSPUFÓOBRVFDPEJöDBEJDIBTFDVFODJB
Búsqueda BLAST de secuencias proteicas

En la práctica anterior (Práctica 2: Bases de datos biológicas), se utilizó la herramienta ORF Finder
del NCBI para predecir la secuencia proteica codificada por una secuencia nucleotídica problema. A
continuación se muestra dicha secuencia predicha en formato FASTA:
>unnamed_protein_product_1
MEPPQHQHHHHQADQESGNNNNNKSGSGGYTCRQTSTRWTPTTEQIKILKELYYNNAIRSPTADQIQKITARLR-
QFGKIEGKNVFYWFQNHKARERQKKRFNGTNMTTPSSSPNSVMMAANDHYHPLLHHHHGVPMQRPANSVN-
VKLNQDHHLYHHNKPYPSFNNGNLNHASSGTECGVVNASNGYMSSHVYGSMEQDCSMNYNNVGGGWANMD-
HHYSSAPYNFFDRAKPLFGLEGHQEEEECGGDAYLEHRRTLPLFPMHGEDHINGGSGAIWKYGQSEVRPCASLELRLN
En esta práctica vamos a buscar si esta proteína problema presenta alguna relación con otras
secuencias depositadas en la base datos; es decir, tratar de deducir en la medida de lo posible y por
comparación, la familia de proteínas a la que pertenece y su posible función.
"DDFEBBMTJUJPXFCEFMNCBIEPOEFTFBMPKBMBIFSSBNJFOUBBLASTBUSBWÏTEFMBTJHVJFOUFEJSFDDJØO
IUUQCMBTUODCJOMNOJIHPW#MBTUDHJ
Para realizar esta tarea, puesto que se trata de una secuencia proteica, se utilizará “protein blast”
(blastp), que compara una secuencia de aminoácidos contra una base de datos del mismo tipo.
Copiamos la secuencia de la proteína problema en la ventana en blanco, y seleccionamos una

base de datos de proteínas contra la que comparar (i.e. buscar secuencias similares - homólogas - a la
nuestra). Las posibles bases de datos frente a las que comparar la secuencia proteica están marcadas en
el recuadro rojo. En este caso escogeremos la base de datos Refseq de proteínas. Dicha base de datos
tiene la ventaja de que se trata de una colección exhaustiva de secuencias de proteínas no redundantes
y bien anotadas. No obstante, podríamos haber utilizado otra distinta como Swiss-Prot, cuya caracte-
rística principal es que las proteínas que se encuentran almacenadas en esta base de datos presentan
un alto nivel de anotación. Esto significa que se conoce la estructura tridimensional, la función, las
modificaciones post-traduccionales, variantes, etc.
Entre los posibles algoritmos que pueden ser utilizados para analizar la secuencia problema, utiliza-
remos el algoritmo “blastp” que es el que compara secuencias proteicas. En último lugar para ejecutar
la búsqueda seleccionaremos “Show results in a new window” y haremos clic en el botón “BLAST”.
Con ello se iniciará el proceso de búsqueda de secuencias similares a la nuestra. Durante el proceso
de búsqueda de secuencias nos aparecen unas pantallas que nos indican de qué tipo de proteína se
trata nuestra proteína problema. Una de esas pantallas tiene el siguiente aspecto:
Como se puede ver, se ha detectado un dominio proteico denominado “homeodomain”. Si pincha-

mos en el esquema que muestra el dominio de “homeodomain” podremos obtener información sobre
la secuencia del mismo, e incluso quizá su estructura en 3 dimensiones si ésta ha sido publicada. En
este caso se trata de un dominio de unión a ADN que presenta una longitud de aproximadamente 60
aminoácidos. Los genes que codifican proteínas que presentan dicho dominio están implicados en la
regulación de los patrones de desarrollo (morfogénesis) en animales, hongos y plantas.
Una vez que esté terminada la búsqueda aparece una pantalla con los resultados. Como ocurre con
el análisis blastn, en la primera sección de la página de resultados, desplegando la etiqueta “Search
Summary” (flecha roja) se puede observar información relativa a la búsqueda donde por ejemplo se
puede ver el número de secuencias proteicas almacenadas en la base de datos utilizada (recuadro rojo),
en este caso Refseq.
Posteriormente encontramos la sección “Graphic Summary” ofrece una representación pictográfica

de los resultados de la búsqueda. La relevancia se muestra a través del color, siendo las líneas de color
rojo y rosa las de mayor puntuación y las de azul y verde las que menos. Como se observa las líneas
que están en la parte superior son las más relevantes.

Manual de Prácticas de Bioinformática - (PG 1 - 45)

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Manual de Prácticas de Bioinformática - (PG 1 - 45)

Hochgeladen von

Copyright:

Verfügbare Formate

Manual de prácticas

Juan Capel Salinas

Práctica 1: Bases de datos bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Identificación de familias multigénicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

t Aprender el uso básico de las BD bibliográficas.

Revisión bibliográfica en Pubmed

Acceda al sitio web del PubMed ubicado en la siguiente dirección:

Búsqueda bibliográfica en Web of Science

Acceda a WOS ubicada en la siguiente dirección:

Consulta bibliográfica en Google Scholar

Acceda a Google Scholar o Google Académico ubicado en la siguiente dirección:

t Aprender el manejo básico de las BD biológicas.

www.ddbj.nig.ac.jp/) y Estados Unidos (NCBI, National Center for Biotechnology Information,

Búsqueda de secuencias de ADN

Copyright © 2016. Editorial Universidad de Almería. All rights reserved.

Consulta de secuencias proteicas

en el enlace “FASTA” de la proteína de 344 aa y tendremos la secuencia en un formato adecuado para

Estructuras tridimensionales de proteínas

Estas dos BD que vemos recuadradas en la figura, se refieren a la colección de estructuras 3D de

Y por otro lado la ventana correspondiente a la estructura 3D del dominio MADS:

Identificación de ORF (Open Reading Frame, marco abierto de lectura)

Imaginemos que la secuencia de cDNA problema es la siguiente:

Como secuencia problema utilizaremos la secuencia nucleotídica anterior, denominada como

t Adquirir habilidades y destrezas en el análisis de secuencias de ADN y proteínas.

Accediendo a las secuencias

En este momento debe encontrarse en una página con el consiguiente contenido:

El identificador “HO850244.1” corresponde a una secuencia de un EST (Expressed Sequence Tag,

dbEST Id: 71461818

Identificador del clon a partir del cual se ha aislado

PRIMERS Cebadores utilizados para obtener la secuencia de

Address: NO.800, Dong Chuan Rd., Shanghai, P. R. China

A continuación seleccionaremos la pestaña “Genbank” y nos detendremos en describir qué tipo

LOCUS Identificador, longitud, tipo de mo-

ACCESSION HO850244 aunque se modifique la secuencia

Número de versión de la secuencia.

Origen de la muestra a partir de la cual

Análisis BLAST de secuencias de ADN

En nuestro caso utilizaremos blastn (nucleotide blast, flecha roja).

En la primera sección de la página de resultados, desplegando la etiqueta “Search Summary” (fle-

La sección “Descriptions” muestra la lista de resultados en el siguiente formato:

Búsqueda BLAST de secuencias proteicas

Copiamos la secuencia de la proteína problema en la ventana en blanco, y seleccionamos una

Como se puede ver, se ha detectado un dominio proteico denominado “homeodomain”. Si pincha-

Posteriormente encontramos la sección “Graphic Summary” ofrece una representación pictográfica

Das könnte Ihnen auch gefallen