Beruflich Dokumente
Kultur Dokumente
Introducción
La investigación científica y en particular la
Debido al vertiginoso desarrollo en nuestro biológica es bastante heterogénea, lo cual ha
conocimiento acerca del ”código de la vida”, así dado paso al desarrollo de múltiples herramientas
como en la aplicación de diversas técnicas y he- con propósitos particulares y muchas veces, para
rramientas moleculares para su análisis, ha sido cubrir necesidades específicas de un laboratorio
posible la realización de grandes proyectos de es- o proyecto de investigación, además dichos
cala mundial que algunos años atrás hubieran sido proyectos se gestan por lo general en el seno de
impensables para la comunidad científica, como el comunidades académicas y científicas concientes
”Proyecto Genoma Humano”, el más ambicioso e de su compromiso con la sociedad, lo cual ha
importante proyecto científico en la historia de la redundado en la utilización tanto de sistemas
humanidad o cualquiera de los múltiples proyec- *NIX de código abierto, como de lenguajes y
tos ”genoma” que existen en la actualidad1 . Sin herramientas libres para el desarrollo de dichas
2
*
Miembro del Centro de Bioinformática del Instituto de aplicaciones .
Biotecnología (CBIB), Universidad Nacional de Colombia,
sede Bogotá (http://bioinf.ibun.unal.edu.co/~apinzon). parum (http://www.tigr.org)
1 2
Por ejemplo, proyecto Genoma Plasmodium vivax Como es de esperar, muchos de los grandes proyectos
(http://plasmodb.org) proyecto Genoma Plasmodium falci- científicos alrededor del mundo son de origen privado, de tal
1
10. Filogenia.
2
Una alternativa es la búsqueda de publicaciones datos son generalmente alimentadas mediante en-
en revistas relacionadas, como la sección de ”apli- víos realizados por la misma comunidad científica.
caciones” en la revista bioinformatics 4 , aunque no Existen más de 1000 bases de datos de este
siempre encontremos allí herramientas completa- tipo en la red [4], todas ellas cubriendo una es-
mente libres. pecialidad concreta, es decir que existen bases de
datos que almacenan secuencias primarias de pro-
Herramientas Libres Para Análisis Bio- teínas, algunas otras se encargan de estructuras se-
cundarias, ESTs, antígenos, secuencias crudas de
lógicos DNA, farmacogenómica u organismos específicos
Búsqueda de similaridad (como plasmoDB [6], la base de datos oficial del
proyecto de secuenciación del genoma de Plas-
Esta es tal vez una de las tareas más fre- modium falciparum).
cuentes, la cual consiste en la comparación de La descripción de cada una de ellas se encuentra
una o más secuencias biológicas (DNA o proteí- fuera de los alcances del presente escrito, estas se
na) en búsqueda de regiones similares. La herra- encuentran bien detalladas en la edición especial
mienta más conocida para este tipo de análisis anual que hace la revista Nucleic Acids Research,
es NCBI-BLAST (NCBI-Basic Local Alignment acerca de bases de datos biológicas. Sin embargo
search Tool)5 , existe una versión en línea y otra se pueden citar algunas de las más conocidas:
versión para trabajo local.
Blast es en realidad un algoritmo heurístico que
ha sido implemetado exitosamente por otras ins- Genbank [5]: cuenta con secuencias de DNA
tituciones (como la Universidad de Washington, de más de 105000 organismos diferentes.
cuya variante de este algoritmo se denomina WU- Se estima que en esta base de datos exis-
BLAST). ten alrededor de 13.5 billones de bases nu-
cleotídicas representadas en 12.8 millones de
Búsqueda de motivos funcionales secuencias diferentes.
ELPH es comunmente utilizado en la búsqueda DNA Data Bank of Japan (DDBJ)7 : es una
de motivos en un conjunto de secuencias de proteí- base de datos similar a GenBank, y existe un
na o de DNA. Esta búsqueda la realiza asumiendo sistema de sincronización en las actualizacio-
que cada una de las secuencias que ha recibido co- nes de estas dos bases de datos, lo cual ase-
mo entrada (desde algunas docenas, hasta cientos gura que su contenido sea siempre idéntico.
de ellas) contiene una copia del motivo.
Protein Information Resource (PIR) 8 : esta es
Recuperación de secuencias una base de datos de secuencias protéicas no
redundante.
Esta es una de las tareas más comunes en bioin-
formática, y consiste en la consecución de se-
cuencias de ADN o proteína que cumplan con los PROSITE9 : esta base de datos almacena in-
requerimientos establecidos por el investigador. formación acerca de patrones y perfiles de
Para este fin, existen grandes cantidades de bases proteínas biológicamente significativos.
de datos públicas6 , que se encargan del almace-
namiento de dicha información. Estas bases de ENSEMBLE 10 : sistema que mantienen ano-
taciones automatizadas de genomas de meta-
llevo acabo para este escrito, es muy posible por lo tanto que
existan decenas de otras herramientas iguales o superiores a
zoarios (humano, ratón, zebrafish, Mosquito,
las citadas en este artículo. Drosophila, C. elegans).
4
http://bioinformatics.oupjournals.org/
5 7
http://www.ncbi.nlm.nih.gov/blast/ http://www.ddbj.nig.ac.jp
6 8
Existen dos bases de datos importantes que no son de http://pir.georgetown.edu
9
dominio público: Celera discovery system y las bases de http://www.expasy.org/prosite
10
datos de Incute Genomics. http.//www.ensembl.org
3
Alineamiento esta implementado en forma de CGI Perl, se ac-
cede mediante cualquier navegador web y toma
Smith and waterman es el más conocido de los
como entrada una par de primers dados por el
algortimos en el ambiente informático para el ali-
usuario, de esta manera realiza una búsqueda
neamiento de secuencias y existen innumerables
BLAST e identifica secuencias complementarias
aplicaciones de el, una de ellas es la implemen-
a estas e imprime productos potenciales del PCR.
tada por el paquete de análisis EMBOSS11 en el
programa ”water”.
Análisis y búsqueda de ORFs
Visualización de estructuras terciarias y secun- Manatee17 es una herramienta de anotación y
darias evaluación de genomas procarióticos y euca-
Sin lugar a dudas una de las herramientas más rióticos basada en la web.
conocida al respecto es Rasmol12 , cuya utilización
GlimmerM18 , es un ”gene finder” deriva-
se encuentra bastante extendida.
do de Glimmer, pero desarrollado específi-
Garlic13 , es un editor y visualizador molecular
camente para organismos eucarióticos, es-
completamente libre, soportado por el ministerio
ta aplicación ha sido ”entrenada” para Ara-
de hacienda y energia de Croacia.
bidopsis thaliana, Oryza sativa (arroz) y
Plasmodium falciparum. Teóricamente tam-
Microarreglos bién debería funcionar para organismos cer-
TM414 este es uno de los paquetes de software uti- canos a estos.
lizado por el ”The Institute for Genome Research
(TIGR)15 ” en algunas de sus investigaciones, para Filogenia
el análisis de microarreglos. Este paquete cons-
ta de 4 aplicaciones principales: Microarray Da- Quicktree19 , permite la reconstrucción de
ta Manager (MADAM), TIGR_Spotfinder, Micro- filogénias, mediante la implementación del
array Data Analysis System(MIDAS) y Multiex- método Neighbor-Joining.
periment Viewer(MeV). R 16 es en realidad un pa-
PHYLIP20 , es un paquete de programas para
quete de análisis estadístico de amplia utilización
inferencia filogenética.
en el ámbito bioinformático y en particular en el
análisis de microarreglos. Mavric21 , módulo escrito en python para la
Análisis de DNA manipulación y visualización de árboles filo-
genéticos.
Artemis [3], es una herramienta de visualiza-
ción y anotación de DNA en sus seis marcos de
lectura. Esta implementada en Java y corre bajo Ensamble de secuencias
cualquier plataforma. Artemis es ampliamente uti- Assembler [7]: es una herramienta para el en-
lizada para la anotación de genomas bacteriales y samble de grandes conjuntos de secuencias sobre-
pequeños genomas eucarióticos. lapadas (como ESTs, BACs o pequeños genomas).
PCR
Sistemas Operativos
Virtual PCR [2], es un algoritmo que usa bases
de datos públicas para predecir productos de PCR, Buscando centralizar el uso de estas herramien-
tas y ofrecer sistemas completos para su uso en
11
http://www.hgmp.mrc.ac.uk/Software/EMBOSS/
12 17
http://www.umass.edu/microbio/rasmol/ http://manatee.sourceforge.net/
13 18
http://ccp14.semo.edu/ccp/web-mirrors/garlic/garlic/ http://www.tigr.org/software/glimmerm/
14 19
http://www.tigr.org/software/tm4/ http://www.sanger.ac.uk/Software/analysis/quicktree/
15 20
http://www.tigr.org http://evolution.genetics.washington.edu/phylip.html
16 21
http://www.r-project.org/ http://bioinformatics.org/mavric/
4
ambientes bioinformáticos, recientemente han he- son:
cho aparición algunos sistemas operativos para es- BioPerl: Este es tal vez uno de los proyectos
ta finalidad. Este es el caso de BioBrew 22 , una más antiguos relacionado con bioinformática, se
distribución LINUX libre basada en RED HAT y inició oficialmente en 1995 y es sin lugar a dudas
optimizada para su uso en clusters. el lenguaje de programación más utilizado en el
BIOLINUX 23 es también un sistema operativo ámbito bioinformático (http://www.bioperl.org/).
completo basado en RED HAT 9.0 y GNOME 2.2, BioJava: El proyecto BioJava está dedica-
y diseñado específicamente para su uso en ambien- do a proveer herramientas para el procesamien-
tes bioinformáticos, sin embargo su instalación se to de datos biológicos, lo cual incluye obje-
realiza exclusivamente por red y no existe una ver- tos para la manipulación de secuencias, inter-
sion ”.iso” disponible. operación CORBA, acceso a ACeDB, progra-
LINUX HÉLICE 24 es un proyecto colombiano mación dinámica y rutinas estadisticas simples
que consiste en una distribución LINUX25 , dise- (http://www.biojava.org/).
ñada específicamente para su uso en ambientes BioPython: este proyecto provee herramien-
bioinformáticos, está pensada especialmente en la tas Python para biología molecular computa-
infraestructura de redes y hardware típicas de los cional, provee fuentes en línea para modulos,
laboratorios en los países menos desarrollados. La scripts y vínculos para desarrolladores de software
idea detrás de Linux Hélice es centralizar el análi- (http://www.biopython.org/).
sis de datos biológicos localmente, evitando al
BioCorba: este proyecto provee un método
máximo todo tipo de análisis por red.
orientado a objetos, neutral e independiente de
Además de ofrecer servicios de soporte y ma-
la plataforma para describir y resolver problemas
nuales del software presente en la distribución,
bioinformáticos. El objetivo de BioCorba es servir
linux Hélice centra sus esfuerzos en la imple-
de ”palanca” (en términos de sus desarrolladores)
mentación de interfaces gráficas para la mayoría
en el código de otros Bio proyectos de una manera
de programas que funcionan en consola26 .
sencilla (http://www.biocorba.org/).
DNA LINUX27 , es en palabras de su autor: ”una
distribución Linux con software bioinformático BioLisp: es una fuente publica que apoya a
pre-instalado”, este live CD está basado en Slack- científicos que usan Lisp para el desarrollo de
ware. aplicaciones inteligentes en ciencias biológicas
(http://www.biolisp.org/).
BIOKNOPPIX 28 : basada en Knoppix, es una
distribución creada para su uso en biología molec- BioRuby: BioRuby busca implementar un am-
ular. biente integrado para bioinformática mediante el
uso de Ruby (http://www.bioruby.org/).
BioPHP: BioPHP, busca desarrollar herramien-
Herramientas de lenguaje específicas tas para el análisis de datos bioinformáticos, me-
para bioinformática diante su programación en el lenguaje de script
PHP. (http://bioinformatics.org/biophp/).
Se podría decir que para cada lenguaje de pro-
AliBio: libreria en C++ para uso en biología.
gramación libre existe una libreria o un proyecto
(http://bioinformatics.org/ALiBio/).
de creación para su uso en bioinformática, estos
BioLib: para todos aquellos que piensan
22
http://bioinformatics.org/biobrew/ en FORTRAN como un lenguaje ”moribun-
23
http://envgen.nox.ac.uk/biolinux.html do”, esta libreria escrita completamente en
24
http://bioinf.ibun.unal.edu.co/~apinzon/helice este legendario lenguaje demuestra lo contrario.
25
Esta distribución esta basada en SciLix, una distribución
pensada en la educación superior: (http://bioinformatics.org/biolib/)
javeriana.edu.co/ciencias/u_sistemas/proyectos/scilix.htm BTL [8]: libreria en C++, especialmente dise-
26
Linux Hélice se encuentra en sus inicios y hasta ahora ñada para modelamiento de estructuras.
existe un prototipo de la distribución, pero su desarrollo está
completamente activo.
XML [9]: existen varias aplicaciones de este es-
27
http://www.dnalinux.com tandar para su uso en bioinformática y ciencias de
28
http://bioknoppix.hpcf.upr.edu/ la vida en general, entre los cuales cabe destacar:
5
The chemical Markup Language29 . interesante cuando se habla de este tipo de inves-
tigación en la naciente área de la ”biología in sili-
The bioinformatics Sequence Markup Lan- co”34 .
guage30 . Este tipo de investigación biológica no se en-
cuentra bajo las restricciones propias de la in-
The BIOpolymer Markup Language31 .
vestigación en biología húmeda, como termoci-
cladores, costosos reactivos y en general toda la
Suites infraestructura necesaria para el desarrollo de in-
vestigaciones moleculares, sino que por el con-
Existen completas suites que ofrecen diversos trario esta basada en herramientas de software, que
programas para el análisis de datos biológicos, una requieren únicamente de cierta infraestructura de
de las más importantes y totalmente libre es EM- hardware generalmente accesible, de tal manera
BOSS ("The European Molecular Biology Open que cualquier persona o institución con mínimo
Software Suite ")32 , la Suite Europea de Biología poder adquisitivo está en la posibilidad de con-
Molecular de Código Abierto que consta de más tar con una estación de trabajo en bioinformática
de 100 aplicaciones, las cuales cubren áreas como. aceptable. Por otra parte, si en el peor de los ca-
sos no se pudiera contar con el hardware necesario
Alineamiento de secuencias para llevar este tipo de análisis localmente, siem-
pre existe una solución libre ”en línea”.
Búsqueda rápida en bases de datos con pa-
trones de secuencias. Obviamente este tipo de análisis in silico, no
reemplazan de ninguna manera a las técnicas y
Identificación de motivos de proteína, in- tipo de investigaciones propias de la biologia
cluyendo análisis de dominios. molecular en los laboratios y no se puede pre-
tender que con el uso de estas herramientas se
Análisis de patrones de secuencias de nu- subsanen problemas económicos y de inversión
cleótidos, por ejemplo identificación de islas en programas científicos que provienen de cier-
CpG. tas esferas del estado, sin embargo, es muy im-
portante anotar que el tipo de análisis suscepti-
Análisis de uso codónico para pequeños bles de ser llevados a cabo mediante técnicas in-
genomas. formáticas (que en la actualidad son la gran mayo-
ría) no deberían presentar ninguna diferencia entre
Herramientas de presentación para publica-
una u otra nación. Las herramientas existen, es-
ciones.
tan disponibles para su uso y gracias a una siem-
pre creciente comunidad en torno al Software Li-
EMBOSS es la suite principal utilizada por el
bre tenemos acceso a los códigos fuente y pueden
Centro de Bioinformática del Instituto de Biotec-
ser adaptadas a nuestras necesidades particulares,
nología (CBIB)33 de la Universidad Nacional de
además la mayoría de información biológica rele-
Colombia.
vante se encuentra en bases de datos de dominio
público.
Software libre: cerrando la brecha sin embargo, es importante anotar que no siem-
pre la bioinformática es económica, aunque gran
A pesar de que la investigación científica de
parte de esta sí lo sea. Proyectos masivos, como
punta es por lo general una falencia en los países
la secuenciación y anotación de genomas comple-
menos desarrollados, debido principalmente al ba-
tos generalmente requiere de una infraestructura
jo poder adquisitivo de estos, existe un fenómeno
de hardware importantes, así como de mano de
29
http://www.xml-cml.org
30 34
http://www.visualgenomics.com/products/index.html Este término es utilizado para marcar una diferencia en-
31
http://www.proteometrics.com/BIOML/ tre la investigación biológica tradicional (biología húmeda
32
http://www.hgmp.mrc.ac.uk/Software/EMBOSS/ o de laboratorio) y el tipo de investigación biológica que se
33
http://bioinf.ibun.unal.edu.co realiza mediante técnicas computacionales.
6
obra calificada. bien existen herramientas libres para análisis bio-
lógicos compatibles con sistemas propietarios, es-
Bioinformática y Software Libre en colombia tas son pocas y la mayoría de software existente
para estas plataformas tiene costos bastante eleva-
¿Existe investigación en bioinformática en dos, los cuales sumados a otros costos de licencias
Colombia?, en nuestro país no existe investigación dejan sin oportunidades a la mayoría de centros de
formal en bioinformática35 , obviamente muchas investigación en nuestro país.
instituciones sí hacen uso de este tipo de herra- De manera contraria, el uso de sistemas libres
mientas pero tal vez no con la intensidad y se- ofrece grandes oportunidades de desarrollo en es-
riedad que se dá en otros países. Algunos labo- ta área a cualquier centro de investigación con
ratorios de investigación en nuestro país hacen escasos recursos. El pago de licencias es nulo,
uso de estas en sus investigaciones, generalmen- la cantidad de software disponible abundante y
te aquellos que cuentan con la mayoría de recur- aunque no necesariamente el software está siem-
sos económicos, algunos cuentan con personal al- pre disponible de manera gratuita sus costos siem-
tamente capacitado y otros no, pero se podría decir pre están dentro del marco de lo racional y conta-
que la inmensa mayoría ve la bioinformática como mos con el valor agregado de que, dado el caso,
una disciplina lejana y de alguna manera ajena, el código puede ser mejorado, adaptado a nuestras
limitando sus análisis a algunas tareas rutinarias necesidades e instalado en cuantas estaciones de
de alineamiento y búsquedas en GenBank. trabajo queramos.
Este hecho responde en parte a que a pesar de
la extensa utilización de los computadores como
parte del trabajo cotidiano en cualquier área in- Conclusiones
vestigativa, estos son vistos por la mayoría como
”sofisticadas máquinas de escribir”, en las cuales Aunque no se hace una revisión extensiva de to-
se pueden realizar algunos cálculos estadísticos y das y cada una de las herramientas de software li-
a las cuales se les puede instalar algunas veces una bres existentes para su aplicación en análisis bio-
copia ”ilegal” de un software de análisis biológi- lógicos, el presente documento presenta algunas
co, lo cual no siempre viene bien cuando se hace de las más relevantes (o por lo menos más cono-
parte de una institución educativa. cidas y utilizadas), pues con toda seguridad exis-
Básicamente la poca utilización de herramientas ten muchísimas otras herramientas disponibles de
bioinformáticas en la mayoría de centros educa- igual o mayor calidad a las que aquí se presentan,
tivos y de investigación se origina precisamente cuya recopilación es un trabajo que bien merece la
del poco conocimiento acerca de la enorme can- atención. Sin embargo, el simple hecho de hacer
tidad de software libre existente en este campo, y de dominio público el conocimiento de su existen-
a la errónea idea de que los sistemas operativos li- cia y la facilidad de su adquisición es de por sí un
bres son herramientas exclusivas de las disciplinas hecho relevante, una tarea importante que debe ser
relacionadas con la Tecnología de la Información cumplida en todas las áreas del conocimiento.
o para su uso exclusivo como servidores. Por otra, es importante saber que existe toda una
De esta manera, es vital que la comunidad cien- comunidad de desarrolladores trabajando para que
tífica en nuestro país empiece a comprender que el acceso a la información no sea privilegio de al-
en lo relacionado a la biología hecha por computa- gunos, sino un derecho para todos, y que el Soft-
dor, no debería existir ninguna brecha en compara- ware Libre abarca todos los campos imaginables,
ción a los países con acceso a la mayoría de re- desde su aplicación en tareas elementales como la
cursos, y que de cierta manera la utilización ex- creación de un documento de texto, hasta el análi-
clusiva de plataformas propietarias nos excluye de sis de genomas completos.
la oportunidad de desarrollo en esta área, pues si Por último, es imperativo que la comunidad
35
científica y académica cree conciencia acerca de
De hecho en nuestro país no existe un programa o es-
pecialización al respecto. En el mejor de los casos existen
la posibilidad de que el uso de una única platafor-
cátedras aisladas dentro de un programa de biología molec- ma de software cree trabas en el desarrollo del
ular. conocimiento y sus libertades, obviamente la li-
7
REFERENCIAS REFERENCIAS
bertad lo abarca todo, se es libre de elegir lo que [9] F. Achard, G. Vaysseix, E. Barillot. 2001.
se quiere, pero solamente podemos elegir cuando XML, bioinformatics and data integration.
existe más de una posibilidad y en este sentido bioinformatics, 17.2, 115-125.
se espera que el presente documento abra dichas
posibilidades.
Referencias
[1] R. Stevens, C. Goble, P. Baker, A. Brass.
2001. A classification of tasks in bioinforma-
tics. Bioinformatics, 17:2, 180-188.