Introducción a la bioinformática y bases de datos biológicas

UNIVERSIDAD TÉCNICA DEL NORTE
Facultad de ingenierías en ciencias ambientales y agropecuarias

Ingeniería en biotecnología - Prácticas de bioinformática
Nombre: Jhony Adrian Atiaja Docente: Ing. Henry Naranjo

Fecha: 10/02/2018
Unidad 1. Las bases de la biología computacional
Introducción a la bioinformática
La bioinformática es el estudio de la información biológica desde su almacenamiento en
el genoma hasta la obtención de los productos génicos en la célula” esto involucra la
creación y desarrollo de tecnologías informáticas y computacionales para la resolución
de problemas en biología molécula.
La bioinformática comprende los métodos matemáticos, estadísticos y computacionales

que pretenden solucionar problemas biológicos usando secuencias de ADN y
aminoácidos e información relacionada
Tipos de datos biológicos

Gracias a las nuevas tecnologías se está generando una ingente cantidad de datos
biológicos y toda esta información se almacena en bases de datos. Estos datos pueden ser
de cuatro tipos: secuencias biológicas, datos estructurales, datos funcionales y
bibliografía. Cada categoría de datos presenta su propia estructura y requisitos, lo que
influye decisivamente a la hora de diseñar las bases de datos.
Los diversos tipos de datos están estrechamente relacionados entre sí: las secuencias
codificantes de ADN dan lugar a proteínas con una estructura tridimensional y una
función característica; con mucha frecuencia, las proteínas no funcionan solas, sino que
forman parte de rutas metabólicas en las que establecen importantes relaciones con otros
tipos de biomoléculas y, además, toda esta información está convenientemente reflejada
en las publicaciones científicas.
Bases de datos primarias y secundarias
Hay BD que almacenan los datos tal y como han sido depositados por quienes los han
generado, de manera que se pueden analizar repetidamente a medida que van surgiendo
nuevas herramientas. Son las denominadas bases de datos primarias o bancos de datos.
Ejemplos de bases de datos primarias de secuencias de nucleótidos son GenBank, ENA
(European Nucleotide Archive) y DDBJ (DNA Data Bank of Japan). Ejemplos de bases
de datos primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB. Una base
de datos primaria de estructura tridimensional de proteínas es PDB (Protein Data Bank)
y una base de datos primaria de estructura tridimensional de ácidos nucleicos es NDB
(Nucleic acid database).
Unidad 2. BLAST (Basic local alignment search tool)
Introducción a la comparación de secuencias de ADN, ARN y proteínas
La información contenida en secuencias de ADN, por su contenido voluminoso requiere
de técnicas inteligentes para el modelamiento de los datos y de métodos computacionales
avanzados para el procesamiento de estos. Se busca optimizar el tiempo en el que se
ejecutan cálculos e inferencias, y mejorar la confiabilidad de los análisis que se realizan
a partir de los resultados obtenidos, los cuales pueden servir de base para el desarrollo de
investigaciones científicas.
La complejidad que conlleva el manejo de grandes volúmenes de datos exige de procesos

computacionales con alto nivel de desempeño en cuanto a espacio y tiempos de respuesta
datos que al comparar entre especies se pueden conocer su distancia de evolución o
habitad específicos.
• Es probablemente la Herramienta más utilizada en bioinformática

• Se comparan dos (“pairwise”) o más (“multiple”) secuencias para evidenciar las
regiones que son similares y aquellas donde difieren.
• Un alineamiento ÓPTIMO es aquel que exhibe la mayor cantidad de similaridades
y las menores diferencias.
BLAST: uso y aplicaciones

ALINEAMIENTO DE DOS SECUENCIAS
– Métodos gráficos: Dotplot.

Es intuitivo, pero difícil de cuantificar
– Algoritmos óptimos de alineamiento global (NW) o local (SW)
Obtienen el mejor alineamiento posible con programación dinámica
Son demasiado exigentes para ser prácticos en búsquedas extensivas
ALINEAMIENTOS MÚLTIPLES
ALGORITMOS HEURÍSTICOS PARA BÚSQUEDA EN BASES DE DATOS FASTA,

BLAST
–Dan soluciones buenas, no necesariamente óptimas

–Pueden ser mucho más rápidos
APLICACIONES
Descubrimiento de relaciones estructurales, funcionales y evolutivas. Secuencias

similares similar estructura y función proteica
– Identificación de patrones conservados

– Detección de duplicaciones en las secuencias
– Aproximación a mutaciones puntuales
– Estimación de distancia entre especies
– Planteamiento de hipótesis filogenéticas
– Inferencia de eventos evolutivos
– Búsqueda de secuencias en bases de datos
Unidad 3. Alineamiento de secuencias biológicas y sus aplicaciones
Alineamiento simple y múltiple de secuencias
Un alineamiento de secuencias en bioinformática es una forma de representar y comparar
dos o más secuencias o cadenas de ADN, ARN, o estructuras primarias proteicas para
resaltar sus zonas de similitud, que podrían indicar relaciones funcionales o evolutivas
entre los genes o proteínas consultados. Las secuencias alineadas se escriben con las letras
(representando aminoácidos o nucleótidos) en filas de una matriz en las que, si es
necesario, se insertan espacios para que las zonas con idéntica o similar estructura se
alineen.
Si dos secuencias en un alineamiento comparten un ancestro común, las no coincidencias
pueden interpretarse como mutaciones puntuales (sustituciones), y los huecos como
indels (mutaciones de inserción o deleción) introducidas en uno o ambos linajes en el
tiempo que transcurrió desde que divergieron. En el alineamiento de secuencias proteicas,
el grado de similitud entre los aminoácidos que ocupan una posición concreta en la
secuencia puede interpretarse como una medida aproximada de conservación en una
región particular, o secuencia motivo, entre linajes. La ausencia de sustituciones, o la
presencia de sustituciones muy conservadas (la sustitución de aminoácidos cuya cadena
lateral tiene propiedades químicas similares) en una región particular de la secuencia
indica que esta zona tiene importancia estructural o funcional. Aunque las bases
nucleotídicas del ADN y ARN son más similares entre sí que con los aminoácidos, la
conservación del emparejado de bases podría indicar papeles funcionales o estructurales
similares.
Reconstrucción de árboles filogenéticos
Pretende conocer la relación de ancestría
- Descendencia de los OTUs (árbol filogenético) a diferentes niveles taxonómicos,

haciendo una reconstrucción de esta relación con base en diversos caracteres
adquiridos por descendencia directa.
Recordemos que el procedimiento para construir árboles filogenéticos se divide en 5

pasos:
- Elección de los marcadores moleculares
- Alineamiento múltiple de secuencias
- Elección de un modelo de evolución
- Determinación de un método de construcción de árboles
- Verificación de la fiabilidad del árbol construido
El modelo Kimura es más sofisticado (realista) ya que considera diferentes las tasas de
mutación para las transiciones (substitución de una purina por otra o una pirimidina por
otra) y para las transversiones (substitución de una purina por una pirimidina o vice versa)
El método más simple basado en agrupamiento es UPGMA (unweighted pair group

method using arithmetic average)
Unidad 4. Secuenciación de ADN: manejo de datos y análisis de secuencias
Introducción a la secuenciación de ADN
La estructura de la doble hélice del ADN fue descrita por James Watson y Francis Crick
en 1953. Dicho descubrimiento ha supuesto un hito en la historia de la biología y su
modelo propuesto ha sido ampliamente confirmado.A finales de los años 70 se
desarrollaron los métodos que permitieron de manera simple y rápida, determinar la
secuencia nucleotídica de cualquier fragmento de ADN. Estos primeros intentos de
secuenciar ácidos nucleicos siguieron los pasos empleados en la secuenciación de
proteínas: romper las moléculas en pequeños fragmentos, determinar su composición de
bases y deducir la secuencia a partir de fragmentos solapantes. Este método resulta
relativamente sencillo para proteínas donde estas resultan de la combinación de hasta 20
aminoácidos distintos, pero constituye un problema en el caso de los ácidos nucleicos
donde la secuencia resulta de la combinación de únicamente cuatro nucleótidos
diferentes.
Manejo y anotación de secuencias de ADN

Anotación ORF (open reading frame)
En procariotas el mayor ORF comenzando desde el primer codón de start hasta el primer
codón de stop es una buena (pero no segura) predicción de una región que codifica
proteínas.
En eucariotas es algo más complejo debido a la presencia de intrones que suelen generar
codones de stop que no necesariamente representan el término de la secuencia
codificadora.
BIBLIOFRAFIA
Richer, J. M., Goëffon, A., and Hao, J. K. (2009). A memetic algorithm for phylogenetic
reconstruction with maximum parsimony. Lecture Notes in Computer Science,
5483:164–175.
PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag

Berlin Heidelberg, 2005. ISBN 3-540-20873-9.
CORDÓN, Oscar, et al. Ten years of genetic fuzzy systems. En: Fuzzy Sets and Systems.
vol. 141, Issue: 1. 2004.
BANDYOPADHYAY, Sanghamitra. An efficient technique for super family

classification of amino acid sequences: feature extraction, fuzzy clustering and prototype
selection. En: Journal Fuzzy Sets and Systems. vol. 152, Issue: 1. 2005.
FENG, Zukang, et al. Ligand Depot: a data warehous for ligands bound to
macromolecules. En: Bioinformatics Applications Note [en línea]. 1 de abril de 2004. vol.
20. no. 13. Disponible desde Internet en:
<http://bioinformatics.oxfordjournals.org/content/20/13/2153.full.pdf+html?sid=5fbc13
fd-7bee-4364-829bef27e2d53032>

Introducción a la bioinformática y bases de datos biológicas

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Introducción a la bioinformática y bases de datos biológicas

Hochgeladen von

Copyright:

Verfügbare Formate

UNIVERSIDAD TÉCNICA DEL NORTE

Facultad de ingenierías en ciencias ambientales y agropecuarias

Nombre: Jhony Adrian Atiaja Docente: Ing. Henry Naranjo

La bioinformática comprende los métodos matemáticos, estadísticos y computacionales

Tipos de datos biológicos

La complejidad que conlleva el manejo de grandes volúmenes de datos exige de procesos

• Es probablemente la Herramienta más utilizada en bioinformática

BLAST: uso y aplicaciones

– Métodos gráficos: Dotplot.

ALGORITMOS HEURÍSTICOS PARA BÚSQUEDA EN BASES DE DATOS FASTA,

–Dan soluciones buenas, no necesariamente óptimas

Descubrimiento de relaciones estructurales, funcionales y evolutivas. Secuencias

– Identificación de patrones conservados

- Descendencia de los OTUs (árbol filogenético) a diferentes niveles taxonómicos,

Recordemos que el procedimiento para construir árboles filogenéticos se divide en 5

El método más simple basado en agrupamiento es UPGMA (unweighted pair group

Manejo y anotación de secuencias de ADN

PHOEBE CHEN, Yi-Ping. Bioinformatics Technologies. Alemania: Springer-Verlag

BANDYOPADHYAY, Sanghamitra. An efficient technique for super family

Das könnte Ihnen auch gefallen