Bioinformática Novatos

8/5/2014 BIOINFORMTICA NOVATOS
http://silvioalejandro.tripod.com/ 1/31

INICIO | HERRAMIENTAS I | HERRAMIENTAS II | APNDICE
XILOSA ISOMERASA DE Bacillus stearothermophilus (Gallay et al., 1997)
A la izquierda: modelo de la molecula de DNA en LEGO. Tomado de
www.ericharshbarger.org/lego/mini_dna.html
INTRODUCCIN

El avance cientfico en el rea de las ciencias biolgicas ha alcanzado un nivel notable.
Innumerables proyectos han redundado en la ampliacin del conocimiento, nuevas aplicaciones y
grandes perspectivas hacia el futuro. Todo esto ha llevado a mejorar el nivel de vida del ser
humano, y al desarrollo de nuevas formas de proteger el medioambiente, gracias a los adelantos
especficos en medicina, biologa y biotecnologa.
Grandes proyectos de secuenciacin han generado una inmensa cantidad de datos, entre
estos se destaca el proyecto genoma humano. Toda esa informacin debe analizarse y
correlacionarse, afn de estructurar los conceptos tericos del funcionamiento de los seres vivos
desde el nivel molecular, con lo que se pueden desarrollar aplicaciones novedosas.
Es en este punto se hace importante la Bioinformtica, una rama de la ciencia que
propende por el uso y desarrollo de las tecnologas de la informacin, para el anlisis e
interpretacin de los datos que arrojan las diferentes investigaciones biolgicas. Entre sus
principales objetivos se encuentran: el almacenamiento de la informacin, principalmente
secuencias de cidos nucleicos y aminocidos, de una manera accesible a los investigadores;
herramientas para el estudio, comparacin y correlacin de datos hallados experimentalmente;
prediccin de dominios, estructuras y relaciones filogenticas de las secuencias examinadas;
desarrollo de algoritmos y estadstica necesaria para la comprensin de la informacin biolgica.
Departamentos en Renta
vivanuncios.com.mx
Miles de Ofertas para Rentar Donde compras y vendes rpido
desarrollo de algoritmos y estadstica necesaria para la comprensin de la informacin biolgica.
Todo esto lleva al desarrollo de nuevas teoras, conceptos y perspectivas que generan diferentes y
revolucionarias formas de entender la vida.
En la actualidad existe un adelanto desmesurado de las tecnologas de la informacin. Su
difusin y aprovechamiento ha sido posible gracias a la globalizacin, donde un papel muy
importante lo ha jugado la Internet. La Web ha permitido conocer y aprovechar muchos de los
avances cientficos, donde la bioinformtica no ha sido la excepcin.
Los nuevos avances han generado que varias disciplinas de la investigacin se
interrelacionen, como la medicina, la gentica, la biologa, la bioqumica, la biotecnologa y la
computacin entre otras. Los grandes laboratorios cuentan con grupos multidisciplinarios, que
cooperan armnicamente y retroalimentndose constantemente. Es as como, hoy por hoy, no se
puede estudiar y comprender un ente fisiolgico nicamente desde un solo punto de vista.
Por ello, todo aquel que desee dedicarse al campo investigativo debe conocer el manejo
de las herramientas bioinformticas, con la finalidad de que sea capaz de analizar y correlacionar
la informacin que obtenga en el laboratorio. Cuando unos datos de laboratorio no son analizados
a la luz de lo que otros han obtenido, se pierde la perspectiva de la situacin, con el riesgo de
caer en errores o inconsistencias.
Este documento busca un primer acercamiento del investigador, o de quien este
interesado en el conocimiento y anlisis de datos biolgicos, hacia las herramientas
bioinformticas que se encuentran en Internet. Estos recursos poseen las ventajas de una
actualizacin constante en la mayora de los casos, frecuentemente salen nuevas y mejoradas
herramientas para anlisis bioinformtica, trabajan por medio de potentes servidores que analizan
rpida y eficientemente la informacin ingresada, los resultados son presentados de una manera
sencilla y completa los cuales son almacenados por un tiempo variable. La informacin contenida
en este texto fue tomada desde los sitios Web, de literatura especializada y de algunos cursos
que he tenido la oportunidad de realizar (ver seccin bibliografa).
Todo lo anterior, implica la necesidad de estar visitando y estudiando constantemente los
sitios que administran estos recursos. Cabe la posibilidad de inexactitudes en este documento,
ante lo que pido esa retroalimentacin que enriquece la ciencia, de parte de quienes visiten este
sitio. Espero que estas pocas lneas sean de utilidad, y que sobre todo despierten el inters por
conocer y aplicar esta disciplina.
CONTENIDO
INICIO
INFORMTICA
COMPUTADORA
HARDWARE
SOFTWARE
REDES DE COMPUTADORA
TRANSMISIN DE DATOS
INTERNET
BIOINFORMTICA
BIOLOGA MOLECULAR
TECNOLOGIAS DE LA INFORMACIN
RECURSOS DE INFORMACIN
BANCOS DE PUBLICACIONES.
BASES DE DATOS

HERRAMIENTAS I
HERRAMIENTAS PARA BIOLOGA MOLECULAR
DISEO DE OLIGONUCLETIDOS (PRIMERS)
PCR VIRTUAL
MAPAS DE RESTRICCIN
ELECTROFEROGRAMAS (CHROMAS)
COMPARACION DE SECUENCIAS
DESCARGA DE PROGRAMAS DE BIOINFORMTICA

HERRAMIENTAS II
MODELAMIENTO DE PROTENAS

APNDICE
OTROS CONCEPTOS
OTROS RECURSOS
PERSPECTIVAS
BIBLIOGRAFA
INFORMTICA

COMPUTADORA
Es una mquina capaz de procesar o tratar automticamente, a gran velocidad, clculos y
complicados procesos que requieren una toma rpida de decisiones, mediante la aplicacin
sistemtica de criterios preestablecidos, siguiendo las instrucciones de un programa, la
informacin que se le suministra es procesada para as obtener un resultado deseado.
La computadora es una maquina de propsitos o uso general. Los conceptos de
estructura fsica y de programacin constituyen el soporte material y lgico de esa realidad. Es
una dualidad solidaria, que tambin recibe los nombres de Hardware o soporte fsico y Software o
soporte lgico.

HARDWARE
Hardware son todos aquellos componentes fsicos de una computadora. El Hardware
realiza las 4 actividades fundamentales: entrada, procesamiento, salida y almacenamiento
secundario.

1. Entrada: Para ingresar los datos a la computadora, se utilizan diferentes dispositivos:

-Teclado: Dispositivo de entrada ms comnmente utilizado que encontramos en todos
los equipos computacionales. El teclado se encuentra compuesto de 3 partes: teclas de funcin,
teclas alfanumricas y teclas numricas.
- Mouse: Es el segundo dispositivo de entrada ms utilizado. El mouse o ratn es
arrastrado a lo largo de una superficie para maniobrar un apuntador en la pantalla del monitor.
- Lpiz ptico: Este dispositivo es muy parecido a una pluma ordinaria, pero conectada a
un cordn elctrico y requiere de un software especial. Haciendo que la pluma toque el monitor el
usuario puede elegir los comandos de las programas.
- Tableta digitalizadora: Es una superficie de dibujo con un medio de sealizacin que
funciona como un lpiz. La tableta convierte los movimientos de este apuntador en datos
digitalizados que pueden ser ledos por ciertos paquetes de cmputo. Los tamaos varan desde
tamao carta hasta la cubierta de un escritorio.
- Entrada de voz (reconocimiento de voz): Convierten la emisin vocal de una persona
en seales digitales. La mayora de estos programas tienen que ser "entrenados para reconocer
los comandos que el usuario da verbalmente.
- Pantallas sensibles al tacto (Touch Screen): Permiten dar comandos a la
computadora tocando ciertas partes de la pantalla.
- Lectores de cdigo de barras: Son rastreadores que leen las barras verticales que
conforman un cdigo.
- Scanner: Convierten texto, fotografas a color en Blanco y Negro a una forma que
puede leer una computadora. Tambin se puede ingresar informacin si se cuenta con un Software
especial llamado OCR (Reconocimiento ptico de caracteres).

2. Procesamiento: El CPU (Central Proccesor Unit) es el responsable de controlar el flujo de
datos (Actividades de Entrada y Salida) y de la ejecucin de las instrucciones de los programas
sobre los datos. Realiza todos los clculos (suma, resta, multiplicacin, divisin y compara
nmeros y caracteres). Es el "cerebro de la computadora. Se divide en 3 componentes:

Unidad de control: Es en esencia la que gobierna todas las actividades de la
computadora, as como el CPU es el cerebro de la computadora, se puede decir
que la UC es el ncleo del CPU. Supervisa la ejecucin de los programas
Coordina y controla al sistema de cmputo, determina que instruccin se debe
ejecutar y pone a disposicin los datos pedidos por la instruccin, donde se
almacenan los datos y los transfiere desde las posiciones donde estn
almacenados. Una vez ejecutada la instruccin la Unidad de Control debe
determinar donde pondr el resultado para salida, para su uso posterior.
Unidad Aritmtico/Lgica: Esta unidad realiza clculos (suma, resta,
multiplicacin y divisin) y operaciones lgicas (comparaciones). Transfiere los
datos entre las posiciones de almacenamiento. Tiene un registro muy importante
conocido como: Acumulador ACC. Al realizar operaciones aritmticas y lgicas,
la UAL mueve datos entre ella y el almacenamiento. Los datos usados en el
procesamiento se transfieren de su posicin en el almacenamiento a la UAL. Los
datos se manipulan de acuerdo con las instrucciones del programa y regresan al
almacenamiento.
rea de almacenamiento Primario: La memoria da al procesador
almacenamiento temporal para programas y datos. Todos los programas y datos
deben transferirse a la memoria desde un dispositivo de entrada o desde el
almacenamiento secundario (disquete), antes de que los programas puedan
ejecutarse o procesarse los datos.
Las computadoras usan 2 tipos de memoria primaria:
- ROM (read only memory). Memoria de slo lectura, en la cual se almacena
ciertos programas e informacin que necesita la computadora las cuales estn
grabadas permanentemente y no pueden ser modificadas por el programador.
- RAM (Random access memory). Memoria de acceso aleatorio, la utiliza el
usuario mediante sus programas, y es voltil. La memoria del equipo permite
almacenar datos de entrada, instrucciones de los programas que se estn
ejecutando en ese momento, los datos resultados del procesamiento y los que se
preparan para la salida. Los datos proporcionados a la computadora permanecen
en el almacenamiento primario hasta que se utilizan en el procesamiento. La
memoria est subdividida en celdas individuales cada una de las cuales tiene una
capacidad similar para almacenar datos.


3. Almacenamiento Secundario: El almacenamiento secundario es un medio de
almacenamiento definitivo (no voltil como el de la memoria RAM). El proceso de transferencia de
datos a un equipo de cmputo se le llama procedimiento de lectura. El proceso de transferencia
de datos desde la computadora hacia el almacenamiento se denomina procedimiento de escritura.
En la actualidad se pueden usar el almacenamiento Magntico y el almacenamiento ptico.

Almacenamiento Magntico: Discos Flexibles, Discos Duros y Cintas
Magnticas o Cartuchos.
Almacenamiento ptico: CD ROM (CD Read Only Memory) y WORM (Write
Once, Read Many)
Medios Magntico-pticos: Estos medios combinan las tecnologas de
grabacin magntica y ptica. Un disco MO tiene la capacidad de un disco
ptico, pero puede ser regrabable con la facilidad de un disco magntico.

4. Salida: Los dispositivos de salida de una computadora es el hardware, que se encarga de
mandar una respuesta hacia el exterior de la computadora, como pueden ser:

Monitores: El monitor es el dispositivo de salida ms comn. Pueden ser que
desplieguen slo 2 colores, monitor a escala de grises y los monitores de color
que pueden desplegar de 4 hasta 1 milln de colores diferentes.
Impresoras: Dispositivo que convierte la salida de la computadora en imgenes
impresas. Se pueden dividir en 2 tipos: las de impacto y las de no impacto.

SOFTWARE
El Software es el conjunto de instrucciones que las computadoras emplean para
manipular datos. Corresponde al conjunto de programas, documentos, procedimientos, y rutinas
asociados con la operacin de un sistema de cmputo. El Software asegura que el programa o
sistema cumpla por completo con sus objetivos, opera con eficiencia, esta adecuadamente
documentado, y suficientemente sencillo de operar. El hardware por si solo no puede hacer nada,
pues es necesario que exista el Software, que es el conjunto de instrucciones que hacen
funcionar al hardware.

Clasificaciones del Software
1. Sistemas Operativos: El sistema operativo (SO) es el gestor y organizador de todas
las actividades que realiza la computadora. Marca las pautas segn las cuales se intercambia
informacin entre la memoria central y la externa, y determina las operaciones elementales que
puede realizar el procesador. El SO despierta a la computadora y hace que reconozca a la CPU,
la memoria, el teclado, el sistema de vdeo y las unidades de disco. Adems, proporciona la
facilidad para que los usuarios se comuniquen con la computadora y sirve de plataforma a partir de
la cual se corran programas de aplicacin.
El componente ms importante del SO es el Kernel, que constituye en su ncleo
permitiendo la interaccin entre el Hardware y el resto del sistema; el Kernel controla los recursos
del hardware, los sistemas perifericos, permite ejecutar programas y proporciona un sistema de
archivos.

+ Categoras de Sistemas Operativos.
- Multitarea. El trmino multitarea se refiere a la capacidad del SO para correr mas de un
programa al mismo tiempo.
- Multiusuario. Un SO multiusuario permite a mas de un solo usuario acceder una
computadora.
- Multiproceso. Las computadoras que tienen ms de un CPU son llamadas
multiproceso. Un sistema operativo multiproceso coordina las operaciones de las computadoras
multiprocesadores. Ya que cada CPU en una computadora de multiproceso puede estar
ejecutando una instruccin, el otro procesador queda liberado para procesar otras instrucciones
simultneamente.

+ Sistemas Operativos ms Comunes.
- MS-DOS. Es el ms comn y popular de todos los Sistemas Operativos para PC. La
razn de su continua popularidad se debe al aplastante volumen de software disponible y a la base
instalada de computadoras con procesador Intel.
- OS/2. OS/2 es un sistema operativo de multitarea para un solo usuario que requiere un
microprocesador Intel 286 o mejor. Adems de la multitarea, la gran ventaja de la plataforma OS/2
es que permite manejar directamente hasta 16 MB de la RAM (en comparacin con 1 MB en el
caso del MS-DOS).
- UNIX-GNU/LINUX. Unix es un SO multiusuario y multitarea, que corre en diferentes
computadoras, desde supercomputadoras, Mainframes, Minicomputadoras, computadoras
personales y estaciones de trabajo. Variantes de UNIX llevan en desarrollo o en produccin ms
de tres dcadas, hacindolo uno de los sistemas operativos disponibles hoy ms estables,
potentes, fiables y constantemente mejorado para servidores de gama alta y supercomputadoras,
a la vez que sigue siendo la solucin preferida para estaciones de trabajo de alto rendimiento.
UNIX fue desarrollado por Thompson y Ritchie en AT&T Laboratories. Debido a que Unix es un
Sistema Abierto, cuyo diseo interno es de dominio Pblico y comercializable, existen varias
versiones similares de un mismo Unix tales como Linux, Solaris, AIX, Sinix, SCO OpenServer,
SCO Unixware, Sun/OS, HP-UX, DG-UX, A-UX, Ultrix, Xenix, Centix y otros. GNU/Linux inicio con
SCO Unixware, Sun/OS, HP-UX, DG-UX, A-UX, Ultrix, Xenix, Centix y otros. GNU/Linux inicio con
Richard Stallman con la Free Software Foundation (1983) para desarrollar un SO de codigo de
acceso libre; a este se unio el Kernel (Linux) desarrollado por Linus Torvalds. Richard Stallman
defiende la creacin y desarrollo de software libre. Este es un SO muy importante en
bioinformtica, sobre el cual se han diseado la mayora de los programas que se utilizan en esta
area.
- SISTEMA OPERATIVO DE MACINTOSH. La Macintosh es una mquina netamente
grfica. De hecho, no existe una interfaz de lnea de comando equivalente para sta. Su estrecha
integracin de SO, GUI y rea de trabajo la hacen la favorita de la gente que no quiere saber nada
de interfaces de lnea de comando.
- WINDOWS NT DE MICROSOFT. Con Windows NT, Microsoft ha expresado su
dedicacin a escribir software no slo para PC de escritorio sino tambin para poderosas
estaciones de trabajo y servidores de red y bases de datos.
Microsoft Windows NT no es necesariamente un sustituto de DOS ni una nueva versin de
ste; es, en conjunto, un nuevo SO diseado desde sus bases para las mquinas ms modernas
y capaces disponibles.
Windows NT de Microsoft ofrece caractersticas nterconstruidas que ningn otro SO para
PC ofrece, con excepcin de Unix. Adems de las caractersticas tradicionales de estricta
seguridad de sistema, red nterconstruida, servicios de comunicacin y correo electrnico,
herramientas de administracin y desarrollo de sistema y una GUI, Windows NT puede correr
directamente aplicaciones de Windows de Microsoft y de Unix.

2. Lenguajes de Programacin: Mediante los programas se indica a la computadora
que tarea debe realizar y cmo efectuarla, pero para ello es preciso introducir estas rdenes en un
lenguaje que el sistema pueda entender. En principio, el ordenador slo entiende las instrucciones
en cdigo mquina, es decir, el especfico de la computadora. Sin embargo, a partir de stos se
elaboran los llamados lenguajes de alto y bajo nivel.
Los lenguajes de programacin cierran el abismo entre las computadoras, que slo
trabajan con nmeros binarios, y los humanos, que preferimos utilizar palabras y otros sistemas
de numeracin.

3. Software de Uso General: El software para uso general ofrece la estructura para un
gran nmero de aplicaciones empresariales, cientficas y personales. El software de hoja de
clculo, de diseo asistido por computadoras (CAD), de procesamiento de texto, de manejo de
Bases de Datos, pertenece a esta categora.

+ Procesadores de Texto
Son utilizados para escribir cartas, memorandos y otros documentos, Ejemplos de
procesadores de texto: Word, AmiPro, Wordperfect.

- Hojas de Clculo
Es una herramienta para calcular y evaluar nmeros. Tambin ofrece capacidades para crear
informes y presentaciones para comunicar lo que revelan los anlisis. Ejemplos de Hojas de
Clculo: Excel, Lotus 123, Quatro.

- Bases de Datos
La DBMS (Data Base Management System) es la herramienta que las computadoras utilizan para
realizar el procesamiento y almacenamiento ordenado de los datos. Por ejemplo, un a agenda
puede ser una base de datos donde se almacenan los nombres, direcciones y nmeros
telefnicos de amigos y contactos de negocios. Ejemplos de Bases de Datos: Access, FoxPro,
Approach.

- Paquetes de Presentacin
Software que permite al usuario disear presentaciones para desplegarlas a travs de la misma
computadora o imprimir diapositivas y acetatos. Ejemplos: Presentation, Power Point, Freelance
Graphics.

4. Software de aplicaciones: El software de aplicacin esta diseado y escrito para
realizar tareas especficas personales, empresariales o cientficas.

REDES DE COMPUTADORA
Una Red es una manera de conectar varias computadoras entre s, compartiendo sus
recursos e informacin y estando conscientes una de otra.

1. Tipos de redes. Segn el lugar y el espacio que ocupen, las redes, se pueden
clasificar en dos tipos:
Redes LAN (Local Area Network) o Redes de rea local. Es un tipo de red que se
expande en un rea relativamente pequea.
Redes WAN (Wide Area Network) o Redes de rea amplia. Es una red
comnmente compuesta por varias LANs interconectadas y se encuentran en una
amplia rea geogrfica. Entre las WAN's mas grandes se encuentran: la
ARPANET, que fue creada por la Secretara de Defensa de los Estados Unidos y
se convirti en lo que es actualmente la WAN mundial: INTERNET, a la cual se
conectan actualmente miles de redes universitarias, de gobierno, corporativas y
de investigacin.

TRANSMISIN DE DATOS
TRANSMISIN DE DATOS
La transmisin de datos en las redes, puede ser por dos medios:
1. Terrestres: Son limitados y transmiten la seal por un conductor fsico.
2. Areos: Son "ilimitados" en cierta forma y transmiten y reciben las seales
electromagnticas por microondas o rayo lser.

INTERNET
Existen varias teoras relacionadas con el nacimiento de Internet, aunque la mas aceptada
es que nace en los aos sesenta con el nombre de ARPAnet, como un proyecto militar apoyado
por el inters de las universidades que consista en interconectar computadoras que tuvieran la
capacidad de alertar a sus ejrcitos en caso de un eventual ataque. En 1972 a las universidades
de Standford, UCLA, UCSB y la de Utah se le unieron cuarenta ms, dando paso a su
masificacin ya que se vio beneficiada por las mini-computadoras y el UNIX, en el noventa, ya no
dependa del gobierno, lo que permiti que este sistema llegara a los Hogares de la mayora de la
poblacin.
Hoy en da Internet conecta y ofrece servicios, tan esenciales como la propia
comunicacin, entre los principales encontramos el WWW o telaraa de informacin mundial, el
E-mail, el FTP, el CHAT y hasta el propio comercio electrnico que componen las bases de las
tecnologas actuales. Una de las cosas que caracteriza a Internet es la capacidad de
autosustentarse, de esta manera y orientados al desarrollo tecnolgico de las plataformas que lo
componen se crean instancias de descarga de aplicaciones que favorecen por lo general al
usuario casero, ya que entregan una alternativa econmica a alguna necesidad.
BIOINFORMTICA

Bioinformtica es una disciplina que utiliza las tecnologas de la informacin para captar,
organizar, analizar y distribuir informacin biolgica con el propsito de responder preguntas
complejas en biologa. La bioinformtica se ocupa del tratamiento de los datos en el campo de las
biociencias moleculares: biologa molecular, bioqumica, medicina y biotecnologa.
Segn la definicin del Centro Nacional para la Informacin Biotecnolgica National Center
for Biotechnology Information (NCBI por sus siglas en ingls): la Bioinformtica es un campo de
la ciencia en el que confluyen varias disciplinas: la biologa, la computacin y las tecnologas de la
informacin. Su fin es facilitar el descubrimiento de nuevos conocimientos y el desarrollo de
perspectivas globales a partir de las cuales puedan discernirse principios unificadores en el campo
de la biologa. La bioinformtica, por tanto, se ocupa dela adquisicin, almacenamiento,
procesamiento, distribucin, anlisis e interpretacin de informacin biolgica, mediante la
aplicacin de tcnicas y herramientas procedentes de las matemticas, la biologa y la
informtica, con el propsito de comprender el significado biolgico de una gran variedad de datos.
Al comienzo de la "revolucin genmica", el concepto de bioinformtica se refera slo a la
creacin y mantenimiento de base de datos donde se almacenaba informacin biolgica, como
son las secuencias de nucletidos y aminocidos. El desarrollo de este tipo de base de datos no
slo significaba su diseo, sino tambin el desarrollo de interfaces complejas donde los
investigadores pudieran acceder los datos existentes y suministrar o revisar datos. Luego toda esa
informacin deba combinarse para formar una idea lgica de las actividades celulares normales,
de tal manera que los investigadores pudieran estudiar cmo estas actividades se vean alteradas.
De ah surgi el campo de la bioinformtica que se encarga del anlisis e interpretacin de varios
tipos de datos, incluidas las secuencias de nucletidos y aminocidos, los dominios de protenas
y su estructura.

BIOLOGA MOLECULAR
Los organismos presentan una complejidad inherente que los hacen nicos, pero al
mismo tiempo comparten la maquinaria bsica que les da esas caractersticas particulares. Para
entender los organismos biolgicos es necesario conocer sus constituyentes, las interacciones
entre ellos y el medio que los rodea. En las entidades biolgicas, los bloques ms bsicos son
las molculas. La mayora de estas son molculas inorgnicas sencillas, como sales o elementos
bsicos constitutivos. Otro grupo de molculas son ms complejas, como los cidos grasos o
carbohidratos que proporcionan la energa necesaria para cumplir con las funciones vitales. Otras
macromolculas, sin embargo, pueden diversificarse en diversas formas y funciones, desplegando
una gran variedad de interacciones y determinan las caractersticas de un organismo.
La Biologa molecular es la ciencia que busca entender la forma en que los organismos
trabajan y estn constituidos, desde el nivel ms bsico: el nivel atmico-molecular. La idea
subyacente es que, para entender un organismo, se necesita examinar sus propiedades desde el
nivel ms bsico posible. Esta ciencia inicia con la publicacin del modelo estructural del cido
desoxirribonucleico (DNA) por Francis Crick y James Watson en 1953. Este hecho permiti
conocer el proceso en el que la informacin gentica se transmite.
El genoma es el conjunto completo de secuencias en el material gentico de un
organismo. Las molculas sobre las cuales se centra la Biologa molecular son los cidos
nucleicos, que codifican la informacin gentica, y las protenas, que son las molculas que
ejecutan dicha informacin.
Un cido nucleico consiste de una larga cadena de nucletidos. La estructura bsica de
los cidos nucleicos es el nucletido. Este tiene 3 componentes: una base nitrogenada, un azcar
y un grupo fosfato. La base nitrogenada es una purina o una pirimidina. Estas bases se unen a la
posicin 1, en un azcar pentosa, por un enlace glicosdico. Los cidos nucleicos se denominan
de acuerdo al tipo de azcar, el DNA tiene 2-desoxirribosa, en tanto que el cido ribonucleico
(RNA) contiene ribosa. El cido nucleico se construye por la unin de la posicin 5 de un anillo
de pentosa, a la posicin 3 del prximo anillo de pentosa por un grupo fosfato. Cada cido
nucleico contiene 4 tipos de bases: las purinas, adenina y guanina, estn presentes en el DNA y
nucleico contiene 4 tipos de bases: las purinas, adenina y guanina, estn presentes en el DNA y
el RNA; las 2 pirimidinas en el DNA son citosina y timina. En el RNA se encuentra uracilo en lugar
de timina. Las bases se representan por sus iniciales. DNA contiene adenina (A), citosina (C),
guanina (G), timina (T), mientras el RNA posee A, G, C, uracilo (U). Las interacciones consisten
en el establecimiento de puentes de hidrgeno, los cuales solo se pueden establecer entre T (o U)
con A (2 puentes de hidrgeno), y C con G (3 puentes de hidrgeno).
Las protenas son cadenas de aminocidos (compuestos orgnicos que, en los entes
biolgicos, contienen un grupo amino y un grupo carboxilo) (Tabla 1) que llevan a cabo las
funciones vitales de todo organismo. Estas presentan varios tipos de estructura, la ms bsica es
la estructura primaria, o cadena lineal de aminocidos, determinada por la secuencia de DNA y
RNA. De acuerdo a la secuencia aminocidica ser la estructura secundaria, terciaria y
cuaternaria de la protena. Fuerzas como puentes de hidrgeno y disulfuro, la atraccin entre
cargas positivas y negativas, enlaces hidrfobicos e hidrfilicos, determinan el plegamiento que
dar a lugar a hlices alfa o lminas beta, en la estructura secundaria, o intrincados modelos en la
estructura terciaria y la formacin de complejos proteicos en la estructura cuaternaria.

Tabla 1. Aminocidos y su smbolo. Estn clasificados de acuerdo a su principal
caracterstica qumica.

Neutral-No polar Letra
Glicina G
L-Alanina A
L-Valina V
L-Isoleucina I
L-Leucina L
L-Fenilalanina F
L-Prolina P
L-Metionina M
Neutral-Polar
L-Serina S
L-Treonina T
L-Tirosina Y
L-Triptofano W
L-Asparagina N
L-Glutamina Q
L-Cisteina C
cidos
L-Aspartico D
L-Glutmico E
Bsicos
L-Lisina K
L-Arginina R
L-Histidina H

La informacin gentica fluye por 3 procesos bsicos: replicacin, o copia de la
informacin gentica contenida en el DNA; trascripcin, que consiste en el traspaso de la
informacin, desde el DNA al RNA, para que esta pueda ser finalmente llevada a protenas, este
ultimo paso denominado traduccin.
El DNA es una doble hlice, compuesta por dos cadenas complementarias unidas entre
s por puentes de hidrogeno entre las bases nitrogenadas. La A de una hebra se aparea siempre
con la T de la hebra complementaria, y del mismo modo, la G con la C. Durante la replicacin, las
dos hebras se separan y cada una de ellas forma una nueva hebra complementaria, incorporando
bases, la A se unir a la T de la hebra molde, la G lo har con la C, obtenindose otra molcula
de DNA idntica a la original con igual informacin gentica.
La trascripcin es llevada a cabo por una enzima, la RNA polimerasa, que reconoce
secuencias promotoras (guas moleculares) en el DNA y a partir de ellas copia una cadena de
RNA (RNA mensajero o mRNA), la cual corresponde a la regin codificante (gen) para una
protena. Este proceso se denomina trascripcin.
Una vez que la informacin gentica se encuentra como RNA es necesario llevarla a la
formacin de protenas, proceso denominado traduccin. Este implica el reconocimiento del
mRNA por el ribosoma, y la formacin de la secuencia de aminocidos por RNA transportadores
(tRNA) a partir de la secuencia contenida en el mRNA de acuerdo a los tripletes correspondientes
en el cdigo gentico (Tabla 2).

Tabla 2. Cdigo gentico.

UUU F UCU S UAU Y UGU C
UUC F UCC S UAC Y UGC C
UUA L UCA S UAA Parada UGA Parada
UUG L
UCG
S UAG Parada UGG W
CUU L CCU P CAU H CGU R
CUC L CCC P CAC H CGC R
CUA L CCA P CAA Q CGA R
CUG L CCG P CAG Q CGG R
AUU I ACU T AAU N AGU S
AUC I ACC T AAC N AGC S
AUA I ACA T AAA K AGA R
AUG M ACG T AAG K AGG R
GUU V GCU A GAU D GGU G
GUC V GCC A GAC D GGC G
GUA V GCA A GAA E GGA G
GUG V* GCG A GAG E GGG G
* GUG tambin puede codificar para M. Este triplete es "ambiguo".

La Biologa molecular aplica una gran variedad de tcnicas moleculares, como la
secuenciacin de cidos nucleicos y protenas, la difraccin de rayos X, Reaccin en cadena de la
polimerasa (PCR) y clonacin entre otras, lo que ha llevado a la identificacin y caracterzacin de
los componentes de la informacin gentica tales como regiones promotoras, genes, operones,
intrones, reguladores o dominios de protenas. Por ello, al estudiar todos los procesos que
implican los procesos biolgicos, se ha generado una gran cantidad de informacin biolgica que
es necesario interpretar, correlacionar y difundir.

TECNOLOGAS DE LA INFORMACIN
Las molculas de la vida estn conformadas por una serie de componentes esenciales
que, cuando se juntan, generan las propiedades especficas de las ms complejas estructuras
biolgicas. Estos componentes esenciales (nucletidos o aminocidos), son letras de un alfabeto
muy especial. Estas letras (residuos) producen patrones los cuales reflejan las propiedades de las
molculas que ellos componen, como los tripletes que codifican para un aminocido por ejemplo.
Resulta evidente la funcionalidad de un computador para el anlisis de datos. Es as como
se deduce que las tecnologas de la informacin se pueden aplicar al anlisis de las secuencias
biolgicas, como estn codificadas y como se transmite entre entidades. Las tecnologas de la
informacin aplicadas a la biologa molecular ayudan a entender como los organismos manejan la
informacin biolgica. Esto se puede lograr determinando los patrones existentes para
determinados perfiles biolgicos, y la identificacin de sus similares en las diversas especies.
Este proceso implica una gran atencin, detalle y eficiencia. As, automatizando este proceso se
puede generar un gran caudal de conocimiento, y determinar la informacin ms relevante.
El amplio crecimiento de la biologa molecular ha dado como resultado un auge de
conocimiento, que sobrepasa la capacidad de cualquier ser humano. Pero, si se unen los
mtodos computarizados al raciocinio humano, se lograr conseguir una manera eficiente y rpida
de analizar los datos existentes para extraer los detalles ms significativos. Por ello, las
tecnologas de la informacin, unidas a la biologa molecular, se convierten hoy por hoy en una de
las principales herramientas para el trabajo del cientfico. Este el corazn de la bioinformtica.
RECURSOS DE INFORMACIN

BANCOS DE PUBLICACIONES.
Los grandes avances en el campo de la genmica, la protemica y la biotecnologa han
catapultado a la bioinformtica como una herramienta de anlisis de los grandes proyectos de
secuencias, y de la innumerable cantidad de datos biolgicos que se estn generando. Por ello es
necesario documentarse acerca de las diferentes investigaciones y avances por medio de las
publicaciones cientficas que se encuentran en Internet.
Las diferentes revistas cientficas se han agrupado en varios bancos que facilitan
encontrar la informacin que cada investigador necesite, y en ellos se encuentran clasificadas por
temtica, tipo de revista, o autor entre otros, lo que unido a poderosos buscadores facilita
enormemente su manejo. Algunos permiten acceder a sus publicaciones despus de 6 meses sin
restriccin, pero otros solicitan un pago por artculo (en promedio 30 dlares), generalmente con
cargo a tarjeta de crdito. Tambin hay la opcin de la afiliacin por un periodo de tiempo
determinado en el cul se pueden acceder a todos las revistas del banco en particular. Asimismo,
existen en Internet editoriales, por medio de las cuales se pueden adquirir textos especficos del
tema de nuestro inters como Amazon.

1. PUBMED (www.pubmed.org): Este es el banco de publicaciones del NCBI. La pgina
tiene, en la parte superior, una barra de bsqueda marcada por la palabra SEARCH, donde se
coloca el tema a investigar, luego de lo cual se da clic en GO, con lo que se cargara una pagina
presentando los artculos que poseen la informacin que se busca (Figura 1). Los artculos
marcados con un logo, que consiste en varias paginas de colores, son de acceso libre; los que
tienen un logo de una sola pagina con lneas indica que solo el resumen esta disponible (si se
desea el articulo completo se debe ingresar a la pagina de la revista y hacer el pago
desea el articulo completo se debe ingresar a la pagina de la revista y hacer el pago
correspondiente); los artculos marcados con el logo de una pagina en blanco no estn disponibles
(ni siquiera el resumen) (Figura 1).
Figura 1. Pagina de resultados de publicaciones obtenidos en Pubmed. El logo de paginas de
colores es para artculos completos de acceso libre, el logo de la pagina con lneas indica libre acceso
al resumen, el logo de una pagina en blanco representa artculos no disponibles.
Cuando una publicacin es de acceso libre se accede dando clic en el nombre de los
autores, o en el logo (paginas de colores), luego de lo cul se cargar una pagina con el resumen
y un link para acceder a la revista, o a la base de datos de Pubmed (Figura 2). Al hacer clic en
cualquiera de las 2 opciones saldr una ventana emergente, donde se encuentra el artculo en
formato html (Figura 3), y un link con la opcin para acceder al artculo en formato pdf que se
carga automticamente.
Figura 2. Pagina de Pubmed para un artculo de acceso libre. El icono verde con la leyenda FREE full
text en la izquierda indica que la publicacin se encuentra disponible al publico libre de pago.
Figura 3. Pagina HTML de artculo completo. El link full text (PDF) se utiliza para acceder al
mismo articulo en formato pdf (el segundo link en el men de la derecha, de color violeta).
2. ELSEVIER (www.elsevier.com): es un banco de publicaciones cientficas muy amplio, que
abarca recursos de gran variedad de temas (Figura 4). Contiene links a tems como catlogos,
libros, revistas, bibliografa especializada y noticias cientficas destacadas, entre otros. Un link
importante se encuentra en la parte derecha, el cual enlaza al sitio Science Direct, que se puede
acceder directamente en la direccin www.sciencedirect.com (Figura 4).
Figura 4. Pagina principal de Elsevier. Contiene links a varios recursos informativos. A la
derecha se encuentra el icono de acceso a Science Direct.

Por medio del sitio de Science Direct se accede a revistas y artculos cientficos (Figura 5). La
pgina tiene una barra para la bsqueda, por tema, revista o autor. Adems, presenta todas las
revistas clasificadas alfabticamente. Es necesario pagar por los artculos o por la suscripcin,
aunque hay algunas pocas revistas de acceso libre (marcados con un cuadro verde o amarillo).
Figura 5. Pagina de Science Direct. Contiene una barra de bsqueda (Quick Search), y
variados links que dirige a las revistas (journals), libros (books), resmenes (abstracts), perfil personal
(My profile) y alertas (alerts).

3. Sociedad Americana de Microbiologa (ASM) (www.asm.org): Este sitio Web presenta
recursos como el calendario de eventos en microbiologa, noticias y acceso a revistas cientficas
(Figura 6).
Figura 6. Pagina principal de la Sociedad Americana de Microbiologa. El sitio contiene
enlaces a variados recursos. El motor de busqueda se inicia con el link Search en la parte superior a la
derecha.

En link SEARCH (arriba a la derecha) abre una pgina con varios enlaces a revistas, junto con un
formulario de bsqueda (con opciones como autor o palabras clave) (Figura 7). La opcin ASM
JOURNALS busca el tema en todas las revistas del formulario. Para iniciar el motor de busqueda
se hace clic en el cuadro SEARCH.
Figura 7. Formulario de busqueda de ASM. Contiene enlaces para revistas cientficas.

Si se desea acceder a mas opciones de revistas, se da clic en SEARCH MORE JOURNALS y en
la ventana que se abre se escoge la revista de inters (Figura 8).
Figura 8. Formulario de busqueda de ASM. Abajo en azul esta el icono Search more
journals para acceder a mas opciones de revistas.

Para guardar los textos en el computador es aconsejable hacerlo en formato pdf (Figura 9), que
permite la visualizacin de la publicacin igual a como aparece en la revista impresa, para lo cul
es necesario bajar el programa Adobe www.adobe.com).
Figura 9. Articulo cientfico en formato pdf. La publicacin se visualiza igual al impreso.

BASES DE DATOS
El gran avance de las ciencias biologicas han generado una gran cantidad de datos, los
cuales se necesita que estn disponibles para todos los investigadores, afn de que se pueda
lograr enriquecer el conocimiento, analizar la nueva informacin y poder establecer correlaciones
fidedignas. Por ello, desde la dcada de los 80 se inici la construccin de modernas bases de
datos, donde los investigadores podan enviar sus descubrimientos y adems tener acceso a los
logrados por otros. Inicialmente, estas solo se ocupaban del almacenamiento de la informacin,
pero con el tiempo se han convertido en sitios que, aparte de lograr una eficiente organizacin de
los datos biolgicos, tienen una gran cantidad de recursos que ayudan al estudio de la informacin
obtenida experimentalmente. Las bases de datos son sitios de almacenamiento de informacin
biolgica de acceso libre. Las bases de datos se han constituido en la base de las herramientas
bioinformticas. Las bases de datos son estructuradas e indexadas lo que permite la fcil
bsqueda en ellas; se actualizan periodicamente; poseen referencias cruzadas (hipervinculos) con
otras bases de datos; el almacenamiento de los datos se hace por texto plano o tablas vinculadas
(flat file and relational data base). Las bases de datos pueden ser primarias si contienen
netamente datos experimentales, o secundarias si poseen datos obtenidos a partir de la base de
datos primaria.

1. Centro Nacional para la Informacin Biotecnolgica-NCBI
(http://www.ncbi.nlm.nih.gov/): Establecido en 1988 como un recurso para la informacin en
biologa molecular, el sitio NCBI ha creado bases de datos pblicas, dirige investigacin en
biologa computacional, desarrolla software para anlisis de datos de genomas, y disemina
informacin biomdica. Todo esto para el mejor entendimiento de los procesos moleculares que
afectan la salud humana y la enfermedad. La ventana principal posee un listado de links
(izquierda) que dan acceso a sus diferentes subsecciones, las cuales poseen sus propias
caractersticas, con la ventaja de una interrelacin entre ellas (Figura 10).
Figura 10. Pagina principal de NCBI. En la parte izquierda se ubica un men hacia sus
principales sitios (azul), el men que esta desplegado da acceso a diferentes recursos del sitio, el
men de la derecha dirige hacia herramientas recomendadas.

Entre otros recursos, NCBI tiene varias bases de datos como GenBank, OMIM (herencia
mendeliana del hombre), MMDB (modelos por homologa de estructuras tridimensionales de
protenas), UniGene (Coleccin de secuencias de genes humanos), el mapa del genoma humano,
el navegador de taxonoma, y el CGAP (proyecto del genoma del cncer).
Este sitio Web posee otros recursos entre los que se cuenta el sistema de acceso
integrado a secuencias, mapas, taxonoma y datos estructurales, denominado Entrez. La
literatura esta disponible a travs de Pubmed. Posee el programa BLAST, el cual busca
similaridades entre secuencias y es capaz de identificar genes y sus caractersticas. Tambin
estn disponibles software para la identificacin de marcos abiertos de lectura (ORF), PCR
electrnica y envo de secuencias (Sequin y BankIt). Aqu se describe algunos recursos de NCBI.
- NCBI tiene el banco de secuencias biolgicas ms grande del mundo
denominado GenBank (Figura 11), al cual se accede haciendo clic en el icono GENBANK
en el men izquierdo (azul) de la pagina principal. Este banco esta en colaboracin con el
Proyecto Internacional de Colaboracin de Base de Datos de Secuencias de Nucletidos
que se lleva a cabo en el Laboratorio Europeo de Biologa Molecular (EMBL), y con el
Banco de Datos de DNA del Japn (DDBJ). Con el EMBL y el DDBJ intercambia
informacin diariamente para conseguir que las 3 bases de datos tengan la misma
informacin. El sitio tiene una barra de bsqueda en la parte superior, con un primer men
ubicado al lado de SEARCH, donde escogemos el sitio de NCBI donde se desea que se
realice el procedimiento, el cual nos da la opcin de ubicar secuencias de protenas,
nucletidos, estructuras o en Entrez (busqueda combinada), entre otros; luego se procede
a colocar el criterio de busqueda (por medio de palabras clave, o con numero de accesin
si se conoce). Por medio de GenBank se puede enviar secuencias a la base de datos de
NCBI a traves de Bankit (para presentar datos de secuencias de manera rpida) y Sequin
(til para presentaciones complejas y extensas).
Figura 11. Pagina de GenBank. En el listado de la izquierda (azul) se encuentran enlaces
que dan acceso sitios especializados para el envo de secuencias.
que dan acceso sitios especializados para el envo de secuencias.
- NCBI tiene la base de datos OMIM (herencia gentica mendeliana del hombre) que es un
catalogo de genes y desordenes genticos (Figura 12). Este recurso es editado
frecuentemente por el Dr. Vctor A. McKusick y sus colaboradores en Johns Hopkins y
otros. Esta base de datos contiene textos informativos sobre variados temas tales como
genes relacionados con diversas enfermedades (hipertensin, cncer, fibrosis qustica,
etc.), sus localizaciones o relaciones con otros genes, entre otros. Posee enlaces para
referencias bibliograficas, mapas, secuencias y bases de datos relacionadas. Este sitio
esta basado en el libro Mendelian Inheritance in Man. El link HELP y FAQ (en el listado
de la izquierda) enva a sitios que tienen informacin adicional.
Figura 12. Pagina de la base de datos OMIM. Los links Help y FAQ (listado de la izquierda)
proveen informacin detallada acerca de la manera de usar este recurso.
- NCBI tiene la base de datos MMDB (base de datos de modelamiento molecular), que
incluye biomolculas a las cuales se les ha determinado su modelo tridimensional por
medio de cristalografa de rayos X, o por espectroscopia de resonancia magntica nuclear
(NMR) (Figura 13). Este tipo de modelos genera una gran cantidad de informacin acerca
de la funcin biolgica de la molcula, mecanismos a travs de los cuales lleva a cabo su
funcin, su historia evolutiva y la interrelacin con otras molculas. Estas estructuras
provienen del Banco de Estructuras de Protenas (PDB). Se accede a esta base de datos
por medio del link STRUCTURE, ubicado en el listado superior horizontal en el extremo
derecho, con lo cual se abre una nueva pagina que contiene un men a la izquierda, cuyo
primer link es MMDB, que da acceso a esta base de datos. En MMDB se excluyen
modelos tericos. Esta pgina tiene el icono Cn3D, en el listado de la izquierda, que
conduce al visor de estructuras de protenas Cn3D (Figura 14), un programa que permite
visualizar estructuras de protenas.
Figura 13. Pagina de MMDB. En el men de la izquierda existen varios recursos relacionados
entre los que se destaca el programa Cn3D (abajo) para visualizacin de estructuras.
Figura 14. Pagina del programa Cn3D. Aqu se encuentran descritas las bondades del software y
los links para su descarga e instalacin.
- Otro recurso interesante es UniGene (Coleccin de secuencias de genes humanos), que
consiste en un sistema que busca la identificacin de clusters tipo gen, en las secuencias
de GenBank (Figura 15). Cada cluster contiene secuencias que representan un nico gen,
y adems presenta informacin relacionada tal como tipo de tejido donde el gen se ha
expresado, y mapas de localizacin. Aqu se encuentran genes bien caracterizados, y
muchas secuencias que han sido expresadas recientemente. Se puede ingresar a la
pagina por medio del link ALL DATABASES ubicado en la parte izquierda del men
horizontal superior, despus de lo cual se abre la pagina de Entrez, donde se escoge el
enlace UniGene (esta de cuarto en el listado derecho).
Figura 15. Pagina de UniGene.
- Existe la seccin de Recursos del Genoma Humano (Human Genome Resources), donde
se entrelazan todas las secciones que contienen informacin relacionada con el proyecto
de secuenciacin del genoma humano. Aqu hay vnculos a otras bases de datos como
OMIM, UniGene o dbSNP (base de datos de polimorfismos de un solo nucletido). Tambin
existen links hacia mapas, citogentica y genmica comparativa. Se accede a travs del
existen links hacia mapas, citogentica y genmica comparativa. Se accede a travs del
enlace HUMAN GENOME RESOURCES del listado de la derecha de la pgina principal de
NCBI. En esta seccin se encuentra el manual de NCBI, una gua para el uso de sus
recursos (men de la izquierda) (Figura 16).
Figura 16. Pagina principal de Recursos del Genoma Humano.
- El sitio Map Viewer comprende un conjunto de mapas, fsicos y genmicos, interactivos
de todos los organismos cuyo genoma se encuentra secuenciado en su totalidad (Figura
17). Map viewer despliega mapas cromosmicos, y tiene la capacidad de enfocarse en
varios niveles con gran detalle, lo que permite acceder a los datos de una secuencia en
particular para una regin y cromosoma de inters. Para iniciar se ubica el link MAP
VIEWER en el listado derecho de la pagina y se da clic all, con esto se abrir otra pagina
donde se encuentra el listado de los genomas de todos los grupos de organismos que ya
estn terminados. Acto seguido, se escoge uno de los genomas (segn el inters
particular), despus de lo cual se abrir una pgina que contiene un mapa cromosmico. Al
escoger uno de los cromosomas se da paso a otra ventana que contiene un mapa detallado
de este, y los links para los genes identificados en l, que al seleccionarse permiten ver la
informacin relacionada con dichos genes (Figura 18).
Figura 17. Sitio de Map viewer. Aparecen los enlaces hacia los genomas clasificados de
acuerdo al grupo de organismo al que pertenecen.
Figura 18. Cromosoma de Map viewer. Contiene enlaces hacia pginas con informacin de
los genes contenidos en l.
- NCBI contiene una seccin sobre taxonoma, donde se encuentran los datos que proveen
informacin acerca de las relaciones entre organismos (Figura 19). Este sitio se renueva
constantemente segn aparezcan nuevos descubrimientos que cambien los esquemas en
sistemtica. Contiene los nombres de los organismos reportados en las bases de datos
con al menos una secuencia (nucletidos o protenas). Se puede ingresar al sitio
seleccionando el enlace MOLECULAR DATABASES, y all eligiendo el link TAXONOMY
que pertenece a Taxonomy Databases en la lista que se despliega en la pgina.
Figura 19. Ventana del sitio Taxonomy de NCBI. Aparecen los nombres de los organismos
de la base de datos, que al seleccionarlos y elegir Display Common Tree, se generar un rbol que
representa sus relaciones.
- El proyecto CGAP (Proyecto de la Anatoma del Genoma del Cncer) implica la
generacin de informacin y herramientas que permitan entender la anatoma molecular de
la clula cancerigena. Este es un proyecto cooperativo entre el Instituto Nacional de Cncer
de los Estados Unidos (NCI) y NCBI (Figura 20).
Figura 20. Pagina del Proyecto de la Anatoma del Genoma del Cncer.
- NCBI tiene un sistema de acceso integrado a secuencias, mapas, taxonoma y datos
estructurales, denominado Entrez. Cuando se hace una bsqueda a travs de Entrez, este
integra la literatura cientfica, bases de datos de secuencias de DNA y protenas, estructura
3D de protenas y datos de sus dominios, datos de estudios poblacionales, datos de
expresin, montaje de genomas completos e informacin taxonmica. Todo en un sistema,
donde uno y otro tem se ligan meticulosamente. Se ingresa por medio del enlace ENTREZ
HOME ubicado en el listado derecho de la pgina principal de NCBI (Figura 21).
Figura 21. Sitio de Entrez. Se observa un listado que da acceso a los recursos de la base de
datos de NCBI.
- Entrez es muy sencillo de manipular, bsicamente es un tutor de busqueda. Por ejemplo
si escogemos el link NUCLEOTIDE tendremos acceso a una pagina donde, si se conoce el
nmero de accesin de una secuencia en particular (ejemplo: DQ092482) y hacemos clic
en GO, se abrir una ventana que presentar la informacin acerca de dicha secuencia y
links relacionados (nmeros de acceso, autores, revistas donde se encuentra publicado el
hallazgo, titulo del articulo, institucin responsable y la secuencia) (Figura 22).
Figura 22. Resultado emitido por Entrez. Se presenta los detalles de una secuencia.
- NCBI tiene una versin muy completa del programa BLAST (herramienta para bsqueda
de alineamiento local bsico), el cual busca regiones de similaridad entre secuencias, ya
sea de nucletidos o protenas. El programa es capaz de identificar genes y sus
caractersticas gracias a su capacidad de identificar grupos relacionados. El proceso
consiste en escoger el programa segn la secuencia problema (blastn para nucletidos,
blastp para protenas), y este comparara dicha secuencia con todas las que se encuentren
en la base de datos, indicando cuales son las ms similares. El programa ayuda a
identificar estructura, funcin, historia evolutiva y homologa de la secuencia en relacin a
otras, basado en estimativos estadsticamente significativos.
Se accede a travs de la pgina principal de NCBI, haciendo clic en BLAST (en la parte
superior), luego de lo cual se abre una ventana, donde se elige el tem de acuerdo al
objetivo que se persiga (bsqueda de similaridades, alineamiento, traduccin, genomas,
recuperacin de datos o expresin gnica) y al tipo de secuencia que se desee analizar
(Figura 23).
Figura 23. Ventana principal del programa BLAST. Existen varias opciones que van desde el
tipo de secuencia hasta el tipo de anlisis que se desee.
La principal funcin del programa es la bsqueda de similaridades, con blastn o blastp. Al
hacer clic en ellos se abre una ventana con un formulario donde se ingresa la secuencia
problema en la casilla SEARCH y se hace clic en BLAST (Figura 24).
Figura 24. Formulario de ingreso de una secuencia al programa BLAST. Obsrvese que en la
casilla junto a Search se encuentra una secuencia de aminocidos.
La pagina que se despliega a continuacin indica que la secuencia fue recibida en el
servidor exitosamente, el nmero de caracteres de dicha secuencia y, en el caso de una
secuencia de protena, indicar los dominios que se hayan detectado. Despus de esto se
hace clic en el link azul FORMAT (Figura 25).
Figura 25. Pagina de resultado parcial de BLAST. Aqu se indica que la secuencia enviada
fue recibida exitosamente en el servidor, y que se detectaron 3 dominios funcionales.
Luego del paso anterior, se abre una pagina de resultados donde se aprecia un grfico que
Luego del paso anterior, se abre una pagina de resultados donde se aprecia un grfico que
representa todas las secuencias de la base de datos que coinciden con la que se envi,
con el puntaje obtenido, representado en colores (negro, azul, verde, prpura y rojo de
menor a mayor similitud) (Figura 26).
Figura 26. Representacin grfica de los resultados arrojados por BLAST. El nivel de
identidad se representa con colores.
Debajo del grfico se presenta un listado de las secuencias que coinciden, de mayor a
menor porcentaje de similaridad, seguido de un resumen de la denominacin, nmero de
accesin, y estimados de significanca estadstica (Figura 27).
Figura 27. Listado de las secuencias con algn nivel de homologa segn los resultados de
BLAST. Las secuencias contienen un link de acceso, una breve denominacin y los estimativos
estadsticos.
Por ultimo, en la pagina se encuentran todas las secuencias que coinciden, con detalles
que incluyen su nombre y una corta definicin del organismo al cual pertenece una
determinada secuencia, numero de acceso en NCBI, porcentaje de identidad, puntajes,
estimados estadsticos, gaps (presentados con el smbolo -), y alineamiento entre la
secuencia problema con las dems (las coincidencias se indican con el smbolo |) (Figura
28). BLAST ayuda, por medio de esta informacin, a identificar una determinada secuencia,
clasificarla dentro de una familia, e inferir sus posibles relaciones evolutivas, entre otros
tem.
Figura 28. Detalles y alineamientos entre la secuencia problema y las reportadas en NCBI
segn el programa BLAST. Se observa la denominacin de la secuencia, el porcentaje de identidad,
los gaps que se encontraron, el puntaje obtenido y el alineamiento.
- El software para PCR electrnica es usado para identificar STS (Sequence Tagged Site:
Sitio de Secuencia Etiquetada) dentro de secuencias de DNA, mediante la bsqueda de
subsecuencias con las cuales primers para PCR se alineen correctamente (Figura 29).
Figura 29. Pagina del software PCR Electrnica.
- En el sitio de NCBI, existe un software para la identificacin de marcos abiertos de lectura
(ORF) de un tamao mnimo en una secuencia del usuario, o de la base de datos por
medio del uso de un cdigo gentico estndar o alternativo. La secuencia de aminocidos
se puede guardar y compararse mediante BLAST (Figura 30).
Figura 30. Pagina del software para la identificacin de ORF.

- NCBI tiene otros sitios de mucho inters como son: Gentica de la Malaria,
Recursos del Genoma del Ratn, o Recursos de Retrovirus.
En resumen, NCBI es un sitio de referencia para todo investigador. Posee mltiples sitios,
con informacin detallada de los ms importantes temas de las biociencias. Cuenta con
herramientas de primer orden, que generan una gran cantidad de informacin, y son
herramientas de primer orden, que generan una gran cantidad de informacin, y son
fundamentales cuando de sacar conclusiones se habla. Todo esto, unido a la interrelacin entre
los diferentes vnculos y bases de datos, hace de NCBI el principal recurso Web para
investigacin.

2. Laboratorio Europeo de Biologa Molecular-EMBL (http://www.embl.org/): El
Laboratorio Europeo de Biologa Molecular (EMBL) fue establecido en 1974 y es financiado por 8
estados miembros, incluyendo casi toda Europa Oriental e Israel. Sus objetivos son dirigir
investigacin bsica en biologa molecular, proveer servicios esenciales a cientficos en sus
estados miembros, dar entrenamiento de alto nivel a su grupo investigativo, estudiantes y
visitantes, adems del desarrollo de nuevas herramientas para la investigacin (Figura 31).
Al acceder a la subseccin de biologa computacional, en la seccin de servicios, se abre
una ventana con enlaces de recursos en Bioinformtica que el sitio posee. A travs del Instituto
Europeo de Bioinformtica (EBI), EMBL abastece de servicios de datos biolgicos para la
academia y la industria. Las bases de datos de EBI son:
Banco EMBL. Fuente primaria de informacin de secuencias de DNA y RNA.
UniProt. Base de datos de secuencias de protenas.
Emsembl. Contiene genomas de vertebrados.
EMSD. Base de datos de estructuras macromoleculares.
ArrayExpress. Datos de expresin gentica basados en microarreglos.
Si se hace click en el link EMBL-EBI Services en el menu a la izquierda de esta
pantalla se accede a una ventana con links a todos los recursos del sitio (Figura
32).
Figura 31. Pagina principal de EMBL. Aqu se presentan links que dirigen a todos los
recursos del sitio.
Figura 32. Recursos bioinformticos de EMBL.

3. Banco de Datos de DNA del Japn-DDBJ (http://www.ddbj.nig.ac.jp): El Banco de Datos
de DNA del Japn comenz sus actividades desde 1986, en el Instituto Nacional de Gentica
(NIG). DDBJ es una de las bases de datos de secuencias biolgicas internacionales. Aqu se
recolecta datos especialmente del Japn, aunque se aceptan los datos de investigadores de otras
orbes, y se intercambia esta informacin con EMBL y NCBI. Tambin se procura el
abastecimiento de herramientas para recuperacin y anlisis de datos (Figura 33).
Figura 33. Ventana principal de DDBJ.

Entre las principales herramientas del sitio estn:
SRS (Sistema de Recuperacin de Secuencias). software para bsqueda
integrada de secuencias.
TXSearch. Es un sistema para la recuperacin de datos taxonmicos.
GTOP. Contiene datos de anlisis de protenas identificadas por varios proyectos
de genomas.
BLAST. Este sitio posee una versin del programa BLAST similar al que provee
NCBI.
ClustalW. Esta es una herramienta de bioinformtica para la bsqueda de
homologa entre un grupo dado de secuencias.
LIBRA. Es una aplicacin para el anlisis de secuencias y estructuras de
protenas.

4. Banco de Datos de Protenas-PDB (http://www.rcsb.org/pdb/): Este sitio se encarga del
mantenimiento de una base de datos de estructuras tridimensionales de protenas, determinadas
experimentalmente por espectroscopia NMR o cristalografa de rayos x. Tiene un formulario para el
envio de estructuras por parte de los investigadores, un tutorial para aprender el manejo del sitio y
acceso a los modelos por medio de cdigos, palabras clave o autor. Las estructuras contienen
informacin completa que incluye autores, fuente, modelo de la estructura (en varios formatos),
informacin completa que incluye autores, fuente, modelo de la estructura (en varios formatos),
publicacin, descripcin de la estructura, mtodo experimental.
5. Recurso Universal de Protenas (UniProt)(http://www.pir.uniprot.org/): es un catalogo de
informacin de protenas. Comprende informacin de secuencias de protenas y sus funciones, lo
cual realiza uniendo la informacin contenida en Swiss-Prot, TrEMBL, y PIR. UniProt esta
compuesta de 3 componentes, cada uno optimizado para diferentes usos:
- UniProt Knowledgebase (UniProtKB) tiene extensa informacin curada de protenas que
incluye funcin, clasificacin, y referencias cruzadas.
- UniProt Reference Clusters (UniRef) database combina secuencias cercanamente
relacionadas en un record nico para busquedas rpidas.
- UniProt Archive (UniParc) es un deposito que refleja la historia de todas las secuencias de
protenas.

6. Sistema de Recuperacin de Secuencias (Sequence Retrieval System)
(http://srs.ebi.ac.uk/): Este es el sitio que contiene enlaces a todas las bases de datos. Es una
base de datos que contiene bases de datos. Es el sstema idoneo para la busqueda y
recuperacin de secuencias de todo tipo ya que contiene indices a todas las principales bases de
datos. La busqueda de una secuencia en particular se realiza iniciando en la seccin Library
Page donde se escoge la base de datos de interes, y en Query Form se introducen las palabras
claves que definen la busqueda de interes. Tiene muchos otros links de facil manejo, que con la
prctica es de mucha utilidad.

En 1988 se reunieron los staff de GenBank, EMBL y DDBJ e hicieron un acuerdo de intercambio
de informacin (International Collaboration of DNA sequence databases or International Nucleotide
Sequence Database Collaboration-INSDC). As estas bases de datos intercambian informacin
diariamente para que las tres posean los mismos datos biolgicos.

PARA TENER EN CUENTA...
- Cul es la mejor base de datos para mi proposito?
- Cul tiene la mejor calidad de datos?
- Cul es la ms completa?
- Cul es la ms actualizada?
- Cul es la menos redundante?
- Cul es la ms indexada?
- Cul responde ms rpido?

Y...
- Las bases de datos pueden tener muchos errores (anotaciones automaticas)
- No todas las bases de datos estn disponibles en todos los servidores
- La frecuencia de actualizacin es diferente en los distintos servidores
- La adicin de datos es automatica y depende del investigador y su veracidad
Estacin de trabajo
manageengine.com.mx/Dsktop
Automatiza las actividades
comunes de tus estaciones de
trabajo

Departamentos en Renta
vivanuncios.com.mx
Miles de Ofertas para Rentar Donde compras y vendes rpido

Bioinformática Novatos

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Bioinformática Novatos

Hochgeladen von

Copyright:

Verfügbare Formate

8/5/2014 BIOINFORMTICA NOVATOS

Das könnte Ihnen auch gefallen