Sie sind auf Seite 1von 235

II Seminario Internacional en Genmica, Protemica, Bioinformtica, y Biologa de Sistemas 2006 "The 2nd International Seminar on Genomics, Proteomics, Bioinformatics

and Systems Biology" 2006

MEMORIAS MEMORIES

Grupo de Biologa Molecular, Ambiental y Cncer

Grupo de Bioinformtica

http:www.unicauca.edu.co/seminariobio2006

II Seminario Internacional en Genmica, Protemica, Bioinformtica, y Biologa de Sistemas - 2006 "The 2nd International Seminar on Genomics, Proteomics, Bioinformatics, and Systems Biology - 2006"

MEMORIAS / MEMORIES
Editores / Editors Patricia E. Vlez V., M.Sc. Pedro A. Moreno T., Ph.D.

Octubre 25-27 de 2006, Popayn, Colombia http://www.unicauca.edu.co/seminariobio2006 http://bimac.unicauca.edu.co

II Seminario Internacional de Genmica, Protemica, Bioinformtica, y Sistemas Biolgicos Complejos 2006 Memorias Prohibida la reproduccin total o parcial de esta obra, por cualquier medio, sin la autorizacin de sus editores.

ISBN 978-958-9451-21-2 Sello Editorial de la Universidad del Cauca

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Contenido/Contents
Prlogo ..............................................................................................................................i Comit Organizador ......................................................................................................iii Conferencias / Conferences ............................................................................................0 Revisin de algunos modelos de programacin concurrente por restricciones y sus aplicaciones ....................................................................................................................1 Some models of concurrent programming by restrictions and their applications. A review .........................................................................................................................1 Aranda, Jess A.............................................................................................................1 Aplicando Algoritmos de Clasificacin en la Prediccin de Genes. .....................15 Applying Classification Algorithms in Gene Prediction. ......................................15 Bedoya, Oscar .............................................................................................................15 Representacin de secuencias de ADN y protenas mediante el juego del caos y su anlisis multifractal.....................................................................................................17 Representation of DNA and protein sequences using the chaos game representation and multifractal analysis ..................................................................17 Blanco, Sandra ............................................................................................................17 Caracterizacin en Gneros de Arboles y Familias Vegetales de los Cerros Orientales de Bogot desde el Plioceno Medio hasta el Pleistoceno Superior Mediante Anlisis de Regresin Polinmica y Componentes Principales .............26 Burgos, Javier D..........................................................................................................26 Mathematical Model for Environmental Prioritizing Using Hyperbolic Probability Distributions and Power Laws ..............................................................52 Burgos, Javier D..........................................................................................................52 Toxicogenmica .........................................................................................................64 Toxicogenomics .........................................................................................................64 Cajas Salazar, Nohelia ................................................................................................64 Desarrollo de una Plataforma de Bioinformtica para el Proyecto de Genmica del Caf en Colombia ..................................................................................................66 Development of a Bioinformatics Platform for the Coffee Genomics Project in Colombia ......................................................................................................................66 Cristancho, M..............................................................................................................66 Modelos Estocsticos en la Prediccin de la Regin Reguladora. ........................74 Predicting the Regulatory Region by Stochastic Modeling...................................74 Cuarn J. Margot E .....................................................................................................74

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genomas de Plantas de Inters Agrcola Desarrollados en Brasil .......................85 Crop Plants Genome Projects from Brazil .............................................................85 Da Silva, Felipe Rodrigues .........................................................................................85 Aplicacin de la Minera de Datos a la Bioinformtica. ........................................86 Applying Data Mining to Bioinformatics................................................................86 Martinez, Ember Ubeimar...........................................................................................86 Genmica y Bioinformtica Aplicada a un Caso de Escoba de bruja en el Cacao"............................................................................................................................87 Applied Genomics and Bioinformatics to the Witches' Broom Case in Cocoa. 87 Fernandes Formighieri, Eduardo.................................................................................87 Mezcla de Expertos con Redes Bayesianas para la Prediccin de Genes: Una Evaluacin General Sobre 195 Secuencias de Mamiferos.......................................88 Mixture of Experts Using Bayesian Models for Eukaryotic Gene Prediction: a General Evaluation over 195 mammalian sequences ..............................................88 Garreta Luis E. ............................................................................................................88 Infectmica. ...............................................................................................................95 Infectomics .................................................................................................................95 Garcia, Felipe ..............................................................................................................95 De Donde Viene la Inmunolgia, Adonde va? Del Linfocito al Linfochip.........96 Where from did Immunology comes, where do it goes? From the Lymphocyte to the Lymphoship...........................................................................................................96 Klinger, Julio C ...........................................................................................................96 Cadenas de Citokinas, Caos, Complejidad y Polimorfismo Gentico..................98 Cytokines Chaos and Complexity: Immunoregulation by cytokines and Genetic Polymorphism..............................................................................................................98 Klinger, Julio C. ..........................................................................................................98 Una Nueva Aproximacin para el Modelaje y Prediccin de la Estructura Tridimensional de Protenas. .....................................................................................99 A New Approach for Modeling and Predicting the 3D Protein Structure. .........99 Lareo, Leonardo R. .....................................................................................................99 Genmica del Receptor Ionotrpico de Glutamato Activado por N-Metil-DAspartato....................................................................................................................101 Ionotropic Glutamate Receptor Activated by N-Methyl-D-Aspartate Genomics Lareo, Leonardo R. ...................................................................................................101 Genomics and Bioinformatics in Plant-Pathogen Interaction. ...........................103 Genmica y Bioinformtica en Interacciones Planta-Patgeno..........................103 Lpez, Camilo ...........................................................................................................103

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Yucomics: La Yuca Entra a la Era Genmica y Bioinformtica........................113 Yucomics: Cassava Enters To Genomics and Bioinformatics Era.....................113 Lpez, Camilo ...........................................................................................................113 Identificacin y Anlisis de un Fragmento cromosmico de Pseudomonas syringae pv. phaseolicola nps3121 Involucrado en la Sntesis de Faseolotoxina. ................121 Identification and Analysis of a Chromosomal Fragment of Pseudomonas syringae pv. phaseolicola nps3121 Involved in the Phaseolotoxin synthesis........................121 Lpez-Lpez, Karina.................................................................................................121 Preliminary Analysis for the Presence of Amino-acids in the Protein Structures at the PDB. .....................................................................................................................123 Anlisis Preliminar de la Aparicin de Tripletas de Aminocidos en Estructuras Proteicas del PDB......................................................................................................123 Meja Carmona, Diego Fernando..............................................................................123 Estrategia de Exploracin Genmica para la Cepa Solventognica Colombiana Clostridium IBUN 22...............................................................................................131 Strategy of Genomics Exploration for the Colombian Solventogenic Clostridium Strain IBUN 22A. ......................................................................................................131 Montoya Solano, Jos David.....................................................................................131 El Interactoma Revisado ........................................................................................142 The Interactome. A Review....................................................................................142 Moreno, Pedro A.......................................................................................................142 El Core de Genes de las Cyanobacterias y el Origen de la Fotosntesis.............144 The Cyanobacterial Genes Core and the Origin of Photosynthesis ...................144 Moreno, Pedro A.......................................................................................................144 Bioinformtica para Biologos, Qumicos, Ingenieros, y Profesionales de Ciencias de la Salud..................................................................................................................156 Bioinformatics for Biologists, Chemists, Engineers, and Professionals in Health Sciences ......................................................................................................................156 Moreno, Pedro A.......................................................................................................156 Una Propuesta para la Creacin de un Programa de Pregrado en Bioinformtica A Proposal for Creating an Undergraduate Program in Bioinformatics ..........168 Moreno, Pedro A.......................................................................................................168 Electronic Cellular Modeling .................................................................................175 Modelado Electrnico Celular. ..............................................................................175 Parra Plaza, Jaime Alberto ........................................................................................175 Aprendizaje Supervisado para Prediccin de Plegamiento de Protenas ..........176 Machine Learning for Prediction of Protein Foldings ........................................176 Pea Paz, Lyda ..........................................................................................................176

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Complejidad y Caos en la Modelizacin Numrica del Tiempo y el Clima.......186 Chaos and Complexity in Numerical Modeling of weather and Climate. .........186 Pons, Mara Rosa ......................................................................................................186 Aplicacin de la Bioinformtica para el Desarrollo de Nuevas Terapias Antirretrovirales. ......................................................................................................188 Applying Bioinformatics for Developing New Antiretroviral Therapies...........188 Snchez, Adalberto ...................................................................................................188 El Papel de la Genmica en la Investigacin en Salud Pblica. .........................189 The Genomics Role in the Public Health Research. ............................................189 Sierra-Torres, Carlos Hernn. ...................................................................................189 Modelos de Markov en la Prediccin de Genes....................................................191 Markov Models in Gene Prediction. .....................................................................191 Tischer, Irene ............................................................................................................191 La Familia de Genes del Receptor Olfativo Humano..........................................202 The Human Olfatory Receptor Family .................................................................202 Tobar, Fabin ............................................................................................................202 Bionanoelectrnica..................................................................................................205 Bionanoelectronics ..................................................................................................205 Velasco, Jaime...........................................................................................................205 Estructura Fractal de los Genes Interrumpidos ..................................................207 Fractal Structure of the Interrupted Genes..........................................................207 Vlez, Patricia E........................................................................................................207 Genmica Comparativa en Micobacterias: el Potencial tras el Alineamiento Mltiple de Genomas ................................................................................................209 Comparative Genomics in Mycobacteria: Insights from Multiple Genome Alignments .................................................................................................................209 Zambrano Mara Mercedes .......................................................................................209 Indice de autores / Index Authors .............................................................................219 Indice de claves / Index of Keywords ........................................................................221

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Prlogo En el ao 2000 se celebr el I Seminario Internacional de Genmica, Protemica, Bioinformtica, y Sistemas Biolgicos Complejos. Pasados seis aos, muchos adelantos cientficos se han generado en el campo de estas cuatro reas fronteras de la biologa genmica e integrativa. Su impacto ha revasado los resultados e indicadores esperados y en varios pases en vas de desarrollo varas iniciativas adaptadas a estas nuevas exigencias se encuentran en progreso. En Colombia, uno de los resultados ms satisfactorios es el gran inters que existe por parte de un nmero, cada vez creciente, de grupos de investigacin que vienen trabajando en estas disciplinas. Concientes del impacto de las mismas en las polticas de investigacin, desarrollo y educacin nacional se organiz el II Seminario Internacional de Genmica, Protemica, Bioinformtica, y Biologa de Sistemas - 2006. El evento se realiz gracias a la iniciativa del Grupo de Biologa Molecular, Ambiental y Cncer (BIMAC) de la Facultad de Ciencias Naturales, Exactas y la Educacin y a la colaboracin del Grupo de Tecnologas de la Informacin (GTI) de la Facultad de Ingeniera de la Universidad del Cauca, y del Grupo de Bioinformtica de la Escuela de Ingeniera de Sistemas y Computacin de la Universidad del Valle. El Seminario cont con el soporte financiero de la Vicerrectora de Investigaciones de la Universidad del Cauca y del Instituto Colombiano para el Desarrollo de la Ciencia y la Tecnologa, Francisco Jos de Caldas COLCIENCIAS. Adems, recibi el patrocinio de Caf de Colombia, IBM de Colombia y la Red Universia. Sin el apoyo decisivo de estas instituciones el evento no hubiera podido llevarse a cabo. El Seminario agrup a investigadores nacionales e internacionales con experticia en: Genmica, Protemica, Bioinformtica, Biologa de Sistemas, Medio Ambiente y Clima Los conferencistas presentaron a los asistentes, conceptos tericos y tecnolgicos relevantes que sobresalen y se consolidan como los temas de frontera para la Biologa (humana, animal, vegetal, microbiolgica, y ambiental), las Matemticas Aplicadas, la Ingeniera de Sistemas y Computacin y de otras reas relacionadas. Se brind especial importancia a la integracin de los diferentes tpicos y a la oportunidad para el desarrollo cientfico y tecnolgico nacional, ofreciendo un espacio para la reflexin mediante los diferentes paneles en donde se cont con la apreciada participacin de destacados investigadores nacionales e internacionales. Por lo tanto, damos nuestros agradecimientos a los conferencistas de Brasil, Drs. Felipe Rodrgues Da Silva y Eduardo Fernndes Formighieri; de Espaa, los Drs. Mara Rosa Pons y Jos Manuel Gutirrez; de Mxico, la Dra. Karina Lpez y de Colombia a los 23 conferencistas nacionales (ver tabla de contenido) por sus valiosas contribuciones. Al evento asisti como conferencista el Director de Colciencias, Dr. Felipe Garcia. Durante el Seminario se llev a cabo un Foro de Discusin acerca de la proposicin de un

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Proyecto Colombiano en Genmica y Bioinformtica en el cual se plantearon diversas inicitivas por parte de los participantes. Las memoras del evento se han concebido como una recopilacin de resmenes y/o artculos en extenso de las conferencias dictadas por parte de los participantes, as como un libro acadmico de artculos completos de temticas relacionadas. Tambin se han adicionado algunos temaros de colaboradores que no tuvieron la oportunidad de participar como conferencistas al Seminario. La ausencia de las memoras de algunos resmenes y/o extensos programados durante el evento, se debe a trabajos inditos que aun estan en desarrollo o a publicaciones que se encuentran en alguna etapa de evaluacin por parte de pares internacionales. Los resmenes estn organizados en forma alfabtica, de acuerdo al apellido del autor. Organizar este evento requiri de la valiosa entrega y constancia de cada uno de los integrantes del Comit Organizador conformado por la profesora Martha Almanza, M.Sc., el Dr. Pedro A. Moreno, los estudiantes de Biologa, Adrin Rodrguez A. y Fabin Tobar, y los Ingenieros de Sistemas, Ember Martnez, Nstor Daz, y Luis Garreta. A todos Ellos y a los Asistentes al Seminario nuestros agradecimientos.

Patricia Vlez Universidad del Cauca Popayn Coordinadora General

ii

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Comit Organizador II Seminario Internacional de Genmica, Protemica, Bioinformtica, y Sistemas Biolgicos Complejos - 2006 "The 2nd International Seminar on Genomics, Proteomics, Bioinformatics, and Systems Biology - 2006"

Comit Organizador / Coordinador General Patricia E. Vlez, M.Sc. U. del Cauca, Popayn, Colombia

Organizing committee Patricia E. Vlez, M.Sc. U. del Cauca, Popayn, Colombia Pedro A. Moreno, Ph.D. U. del Valle, Cali, Colombia Ember Martnez, Ing. U. del Cauca, Popayn, Colombia Luis Garreta, Ing. U. del Valle, Cali, Colombia Nstor Daz, Ing. U. del Cauca, Popayn, Colombia Martha Almanza M.Sc. U. del Cauca, Popayn, Colombia Fabin Tobar, Biol. U. del Cauca, Popayn, Colombia Adrin C. Rodrguez, U. del Cauca, Popayn, Colombia

Comit de Apoyo Universidad del Cauca Nohelia Cajas. Maria Cristina Gallego. Mariana Valencia Universidad de la Sabana Mnica Daz Lpez

iii

"The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Conferencias / Conferences

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Revisin de algunos modelos de programacin concurrente por restricciones y sus aplicaciones Some models of concurrent programming by restrictions and their applications. A review
Aranda, Jess A. Moreno, Pedro A. y Ortiz, James J. (jesarana, pedroam, jaortiz)@eisc.univalle.edu.co Universidad Del Valle, Escuela de Ingeniera de Sistemas y Computacin Ciudad Universitaria - Melndez

Resumen La programacin concurrente por restricciones (CC) es un simple pero poderoso paradigma de programacin el cual combina cuatro bsicas ideas computacionales: concurrencia (mltiples agentes son activados simultneamente), comunicacin (interaccin a travs de las variables y los agentes), coordinacin (la presencia o ausencia de informacin son fundamentales en la evolucin de los agentes), y localizacin (cada agente tiene y maneja solo un finito nmero de variables). Pero estas cuatro ideas computacionales no son suficientes para modelar problemas tanto de sistemas reactivos como sistemas hbridos. Esto origin un robustecimiento del paradigma CC, adicionando nuevos constructores para poder modelar esos tipos de problemas. En particular se realizaron cuatro extensiones al paradigma CC: Timed CC, Default CC, Timed Default CC e Hybrid CC. Los tres primeros paradigmas pueden modelar sistemas reactivos, mientras que el cuarto es capaz de modelar sistemas hbridos gracias a que est definido sobre una nocin de tiempo continuo. El objetivo de este artculo es mostrar como el paradigma CC y sus extensiones pueden ser una alternativa para modelar y simular problemas presentes en una nueva rea de la biologa como es la biologa de sistemas, los cuales involucran sistemas hbridos (cambios continuos y discretos). Keywords: Concurrencia, Programacin, restricciones, paradigmas de programacin, Biologa de Sistemas Jess A. Aranda: Ingeniero de sistemas de la Universidad del Valle. Estudiante de doctorado en informtica de la Universidad del Valle. Hace su pasanta en la Universidad de Paris VII, Paris, Francia en problemas relacionados con la programacin por restricciones y sus aplicaciones a la biologa y de la biologa a la computacin.

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Revisin de algunos modelos de programacin concurrente por restricciones y sus aplicaciones Introduccin La programacin concurrente por restricciones (CC) es un nuevo paradigma de programacin, el cual elegantemente combina los conceptos lgicos y los mecanismos de concurrencia. El modelo computacional de los CC es basado en la nocin de un sistema de restricciones, el cual esta conformado de un conjunto de restricciones y una relacin de entailment (implicacin). Los procesos interactan a travs de un comn store (almacn). La comunicacin es realizada por telling (adicionar) una restriccin dada al store, y por asking (chequar si del store se puede deducir una verdad) una restriccin dada. Existe en la actualidad un gran inters de los aspectos tericos y las aplicaciones prcticas de los modelos CC. Este inters se fundamenta en poder integrar y resolver aplicaciones prcticas de un dominio especfico utilizando este paradigma (CC). Un relevante ejemplo en el cual se aplica el paradigma CC es en el rea de la Biologa de Sistemas (Sistemas Biolgicos). La biologa de sistemas es una nueva rea de la biologa que tiene como objetivo modelar, simular, analizar y disear sistemas biolgicos. Los campos de accin de los sistemas biolgicos son DNA, RNA, protenas, organismos celulares, sistemas intracelulares entre otros. Los problemas presentes en estos campos de accin pueden ser modelados con el paradigma CC. Este paradigma computacional ayuda a analizar explicar y predecir el comportamiento de los sistemas biolgicos, el cual juega un crucial rol en la biologa de sistemas. Se hace necesario poder modelar problemas con un comportamiento discreto, continuo, estocstico o hbrido (integracin, discretos, continuos, estocsticos). El lograr modelar y simular las caractersticas de los sistemas de control (control de temperatura, hidroelctricas, entre otros) y en especiales de los problemas presentes en la biologa de sistemas, llevaron a que por varios aos se desarrollaran nuevos conceptos tericos al paradigma CC . Estos nuevo conceptos tericos se han integrado al modelo, buscado con esto poder resolver muchos problemas que no podian ser modelados, pero que conceptualmente y estructuralmente se resolvian utilizando el paradigma. La integracin de estos conceptos tericos al paradigma CC, origin la adicin de nuevos constructores a los constructores bsicos. En particular se realizaron cuatro extensiones al paradigma CC: Timed CC, Default CC, Timed Default CC e Hybrid CC. Los tres primeros paradigmas pueden modelar sistemas reactivos, mientras que el cuarto es capaz de modelar sistemas hbridos gracias a que est definido sobre una nocin de tiempo continuo. El objetivo de este artculo es mostrar como el paradigma CC y sus extensiones pueden ser una alternativa para modelar y simular problemas presentes en rea de la biologa de sistemas, los cuales involucran sistemas hbridos (cambios continuos y discretos). Se mostrar cmo los paradigmas de CC pueden ser usados naturalmente para modelar una

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

variedad de fenmenos biolgicos, tales como alcance de un umbral, cintica, interaccin de genes, entre otros. La organizacin de este artculo es la siguiente. Se realiza una descripcin detallada del paradigma CC, con sus diferentes extensiones (seccin 2). Posteriormente, se presenta los detalles de la biologa de sistemas y los diferentes tipos de problemas (ver seccin 3). Para finalizar se presentan las conclusiones de este trabajo (ver seccin 4). 2. Los Modelos de CC En esta seccin definiremos los detalles presentes en las extensiones realizadas al CC. En la Fig. 1. se puede observar como fue el camino de construccin de las diferentes adiciones realizadas.
Fig. 1. La relacin entre los modelos CC.

2.1. El Sistema de Restricciones Todos los modelos CC son construidos generalmente sobre un sistema de restricciones. Un sistema de restricciones D es un sistema de informacin parcial, que consiste de un conjunto de restricciones primitivas (formulas de primer orden) o tokens D, cerrados sobre la conjuncin y el cuantificador existencial. Adems consiste de una relacin de inferencia denota por , que relaciona tokens a tokens. Se usan a, b, . . ., para el rango sobre los tokens.

La ltima operacin es necesaria para tener una semntica operacional efectiva. Ejemplos de tales sistemas de restricciones son el sistema Herbrand (programacin lgica), FD y Gentzen. En el resto del artculo asumimos que trabajaremos con el sistema de restricciones

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2.2. La Programacin Concurrente por Restricciones El paradigma CC se basa en la estabilizacin del store u, lo que significa que cualquier ejecucin de un agente A no genera informacin adicional en el store (estabilizar). A continuacin definiremos los constructores o reglas bsicas del CC, a travs de la semntica operacional y la semntica denotacional. Pare esto utilizaremos el siguiente predicado, A u (leer: A converge a u o A se estabiliza en u). La interpretacin es: cundo el agente A se ejecuta sobre u no genera informacin adicional que no sea deducible por u. La semntica operacional de los constructores o reglas bsicas son los siguientes:

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2.3 El Modelo Timed CC La primera extensin de CC es para especificar sistemas reactivos (Timed CC). Los sistemas reactivos reaccionan continuamente con el ambiente. La ejecucin de un sistema reactivo se realiza a travs de continuas actividades, en cada fase el ambiente estimula el sistema con una entrada, obtenido respuestas en un tiempo lmite, y puede permanecer inactivo por un largo perodo de tiempo hasta que el ambiente estimule nuevamente el sistema. Ejemplos de sistemas reactivos son los controladores y los sistemas de procesamiento de seales. La necesidad de poder modelar problemas de sistemas reactivos, donde la informacin es constantemente necesaria y el modelo CC no permite detectar la ausencia de informacin, ni tomar las acciones necesarias para cuando ciertos eventos no ocurren a determinado tiempo. En Timed CC se presenta la combinacin de CC con trabajos en los lenguajes sncronos. Los constructores o reglas bsicas de estos lenguajes responden instantneamente a las seales de entrada. En cualquier instante la presencia y la ausencia de seales puede ser detectada. En este tipo de lenguajes el concepto de tiempo fsico tiene el mismo status que algn otro evento externo. La integracin de CC con los lenguajes sncronos generan Timed CC: en cada instante de tiempo un programa CC es ejecutado, por ejemplo si entra una restriccin del ambiente se realizan los clculos hasta lograr la estabilidad del store, generando las restricciones de salida y el programa a ejecutar en el siguiente instante de tiempo. No existe una relacin entre el store en un instante de tiempo y el siguiente instante. Las restricciones que persisten sobre el tiempo son aquellas que explcitamente hacen parte del programa a ejecutar en los subsiguientes instantes de tiempo. La adicin de tiempo (Timed CC) permite la deteccin de informacin negativa. Si a no ocurre en el tiempo t, se puede tomar una accin basado en la informacin que se tiene en el tiempo t+1. Estas etapas permiten naturalmente detectar y actuar con la ausencia de informacin. Los constructores o reglas bsicas se dividen en dos categoras: (1) Constructores CC: Tell, Composicin Paralela, Declaracin, Ask Positivo. Estos constructores no causan una extensin sobre el tiempo. (2) Constructores de tiempo: Ask Negativo, Hence. Estos constructores causan una extensin sobre el tiempo. La semntica denotacional y operacional de los constructores de CC es semejante a los presentados anteriormente (ver seccin 2.2), para los nuevos constructores de tiempo es: La semntica denotacional es la siguiente: Ask Negativo Es utilizada para ejecutar un agente en el prximo instante de tiempo, en caso en que no se pueda deducir a. Se chequea si se puede deducir a en el tiempo t. Si se puede deducir, entonces no sucede nada, en otro caso B es ejecutado en el prximo instante de tiempo.

Hence Es utilizada para ejecutar un agente en el prximo instante de tiempo. Ejecuta una copia de A en cada instante de tiempo despus del tiempo t.

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

s representa el conjunto de restricciones a ejecutar en el prximo instante de tiempo. {} es el conjunto vaco, el cual representa la posibilidad que el Ask negativo pueda deducir a del store, lo que acarrea la no ejecucin de ningn agente. 2.4. El Modelo Default CC Mientras que la extensin de CC a Timed CC permite detectar informacin negativa o ausente, existe una asimetra entre informacin positiva e informacin negativa. Pero la informacin negativa no puede actuar hasta el prximo instante de tiempo. Esto no es aceptado en varias situaciones, puesto que el delay (espera) puede conectarse en cascada, haciendo que el modelo sea intil. Por eso es necesario detectar informacin negativa inmediatamente y para esto se requiere extender el modelo monotnico bsico de CC. El principal movimiento a realizar al CC es permitir la expresin del defaults. El agente es de la forma if a else A, el cul significa que en la ausencia de la informacin a, ejecutar A. Sin embargo A puede causar que en el futuro se adiciones informacin al store; y en efecto, otros agentes pueden simultneamente ser activados y adicionar ms informacin al store. Para esto se requiere que la informacin a debe hacerse ausente para poder hacer una suposicin acerca de la evolucin futura del sistema: no solo no es deducible a ahora, sino que en el futuro a no se puede deducir. El resultado de todo este proceso origin el lenguaje Default CC.

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2.5. El Modelo Timed Default CC Default CC puede ser extendido para manejar tiempo, igual como se extendi a CC para generar Timed CC. El objetivo es que en cada instante

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

de tiempo un programa Default CC es ejecutado para determinar la salida de una entrada dada. La adicin de tiempo a Default CC origin a Timed Default CC. Se necesita adicionar ms constructores a Default CC, hence A, el cual ejecuta una nueva copia de A en cada instante de tiempo despus del actual. La semntica denotacional de los constructores o reglas bsicas son los siguientes:

2.6. El Modelo Hybrid CC Timed Default CC se obtiene por extensin de Default CC manejando tiempo discreto. Similarmente, Hybrid CC se obtiene por extensin de Default CC para manejar tiempo continuo. Hybrid CC fue pensado para ser un lenguaje en que se describan sistemas hbridos, los cuales son sistemas que pueden envolver eventos discretos as como continuos. La ejecucin de un sistema hbrido consiste de una secuencia de cambios alternados de fases. De una fase de evolucin continua (intervalos abiertos) a una fase discreta, donde la discontinuidad puede aparecer. La extensin de Default CC sobre tiempo continuo se encamina en dos direcciones. 1) Introducen la nocin de un sistema de restricciones continuo (extensin al sistema de restricciones seccin 2.1). 2) El modelo de procesos de Default CC se extiende sobre tiempos continuos, para procesar Hybrid CC.

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

3. La Biologa de Sistemas y sus Aplicaciones La biologa de sistemas es un rea nueva en la biologa, la cual tiene como objetivo comprender a nivel de sistemas los sistemas biolgicos. Mientras la biologa tradicional examina solo los genes o las protenas de forma aislada, la biologa de sistemas estudia la compleja interaccin a muchos niveles de la informacin biolgica tales como, DNA, mRNA, protenas, entre otros. El desarrollo de los modelos computacionales CC, juegan un papel crucial en el rol de la biologa de sistemas. Una variedad de formalismos para modelar sistemas biolgicos se han propuesto en la actualidad. A continuacin estudiaremos 3 acercamientos bsicos:

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Discreto Continuo Estocsticos y varias combinaciones entre ellos. Los modelos discretos son basados en variables discretas y cambios de estados discretos (tiempo discreto). Un clsico ejemplo son las redes booleanas para la regulacin de los genes. Para cada gen, existe una variable booleana la cual indica si el gen se ha expresado o no en un determinado estado. Las redes cualitativas son una extensin de las redes booleanas, las cuales se basan en la lgica multivaluada. Cada variable tiene un dominio de posibles valores, los cuales pueden ser usados para representar diferentes niveles en la expresin de un gen. Los modelos continuos se han utilizado en biologa matemtica por un largo tiempo. Se utilizan ecuaciones diferenciales para modelar reacciones bioqumicas. Las reacciones qumicas y fsicas son transformadas en sistema de ecuaciones diferenciales no lineales, donde las variables representan la concentracin de protenas, RNA u otros molculas. Un clsico ejemplo es el de modelar como varia el grado de expresin de un gen x debido al grado de expresin de un gen y, cuando el gen x se acerca a cierto umbral. La necesidad de capturar ambos fenmenos continuos y discretos han motiva el estudio de los sistemas dinmicos hbridos. Otro importante problema en biologa es el de los fenmenos estocsticos. Las probabilidades se presentan en varios problemas biolgicos, donde las variables del problema toman valores randmicos. En la tabla 1 mostramos diferentes aplicaciones o problemas de biologa de sistemas y al frente de posible o posibles modelos de CC que se puede utilizar para representarlo.
Tabla 1. Aplicacin de los diferentes modelos de CC a problemas de biologa de sistemas.

3.1. Modelamiento de Sistemas Biolgicos A continuacin presentaremos varios modelos de sistemas biolgicos dinmicos que pueden ser desarrollados en los modelos de CC. La meta es mostrar como los modelos de CC permiten modelar sistemas biolgicos de forma natural y declarativamente. El Complejo comportamiento de las Protenas Este modelo representa un inestable mecanismo de construccin entre 2 tipos de protenas y una simple hebra de DNA. El sistema se compone de m M-protenas y n Nprotenas. Existen 4 posibles estados y 8 posibles reacciones, en la Fig. 2. Cada reaccin

10

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

es caracterizada por un coeficiente. El + significa una reaccin, mientras . la concatenacin.

Fig. 2. Posibles estados de transicin.

Es claro que no existe una transicin directa entre el estado 0 y 3. Este proceso discreto puede ser expresado directamente en Timed CC. La constante dt representa el siguiente instante de tiempo t. A continuacin mostraremos la implementacin del problema en lenguaje de programacin Timed CC. Este lenguaje de programacin contiene los constructores bsicos que se presentaron al momento de hablar del modelo. #define dt 1 #define k01 5 #define k02 6 /* definir variables */

11

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La cintica en las reacciones qumicas depende de la concentracin de reactivos. Estos cambios cinticos pueden ser modelados a travs de ecuaciones diferenciales. En el siguiente problema se utilizan las ecuaciones diferenciales para modelar cuando una concentracin de producto supera cierto umbral. Modelo Continuo El problema a modelar en Hybrid CC es el fenmeno de bioluminiscencia para las bacterias V. fischeri. Esta bacteria marina existe a una baja y alta densidad. Mientras que a baja densidad la bacteria parece no ser luminiscente, un dramtico incremento en luminiscencia puede ser observado cuando la densidad pasa un unbral. Este fenomeno depende de la concentracin de unas ciertas pequeas molculas Ai. Para describir la concentracin de una especie molecular x (RNA, Protena, Protena compleja, o molculas pequeas), se usa la ecuacin genrica:

Donde vs es la proporcin de la sntesis, vd es la proporcin de degradacin, vr es la proporcin de reaccin de otras molculas, y vt la proporcin de transporte en el ambiente (difusin). La ecuacin diferencial depende de la concentracin de molculas Ai. La ecuacin diferencial se usa dependiendo de si concentracin de Ai es baja, media, o alta. Las variables x7, x9, denotan la concentracin interna y externa. La concentracin de las otras molculas que envuelven el proceso son descritas por las variables (x1, x2, x3, x4, x5, x6, x8). Todo el resto de smbolos son constantes.

12

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La descripcin matemtica puede ser directamente trasladada en Hybrid CC. Cada molcula es representada por un agente independiente, cuya dinmica se describe por una ecuacin diferencial. La interaccin entre los diferentes agentes es controlada por el sistema.

4. Conclusiones En este artculo revisamos la parte formal de los modelos de CC. Existen unos modelos que se definieron como extensin del paradigma CC sobre el tiempo. En particular en este artculo se consideraron los modelos Timed CC, Default CC, Timed Default CC, Hybrid CC. Los primeros tres modelos manejan la nocin de tiempo discreto y se ajustan bsicamente a problemas de sistemas reactivos. El ltimo maneja la nocin de tiempo continuo y se ajusta bsicamente a problemas de sistemas hbridos. Existen otras extensiones del paradigma CC, tales como: 1) Non - determinismo Temporal Timed CC, el cual es una extensin de Timed CC. 2) Probabilistic CC, el cual surge por la necesidad de modelar problemas estocsticos. Los cuales no tratamos en este artculo, pero que son muy importantes en el modelamiento de problemas de biologa de sistemas, como el de comportamiento estocstico (ver tabla 1). Es claro que los modelos de CC se presentan como una gran alternativa para modelar disear y simular los sistemas biolgicos, tales como el problema del splicing altenativo en el ciclo de vida del virus VIH, la replicacin de un virus, la expresin de los genes, entre otros. La importancia de utilizar los modelos de CC desde el punto de vista terico son: 1) Su alta expresividad, 2) Su semntica bien definida. Desde el punto de vista aplicativo, permiten que el bilogo pueda disear, simular y modelar los sistemas biolgicos a un

13

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

alto nivel declarativo (sin preocuparse de los detalles de la programacin), usando un nmero pequeo de constructores que capturan directamente una variedad de fenmenos biolgicos. Desde el punto de vista de la biologa de sistemas, estos bsicamente ayudan a identificar conceptos computacionales claves necesarios para representar y entender los sistemas biolgicos, como por ejemplo a nivel molecular y celular. Referencias Catuscia Palamidessi. Comparing the expressive power of the synchronous and the asynchronous -calculi. Mathematical Structures in Computer Science. To Appear. C. A. R. Hoare. Communicating Sequential Processes. Prentice-Hall, 1985. Davide Sangiorgi and David Walker. The Cambridge University Press, 2001. -calculus: a Theory of Mobile Processes. (note). Rapport de Recherche

Grard Boudol. Asynchrony and the  -calculus 1702,INRIA, Sophia-Antipolis, 1992.

J.A. Bergstra and J-W. Klop. Algebra of communicating processes with abstractions. Theoretical Computer Science, 33:77121, 1985. Kohei Honda and Mario Tokoro. An object calculus for asynchronous communication. In Pierre America, editor, Proceedings of the European Conference on Object-Oriented Programming (ECOOP), volume 512 of Lecture Notes in Computer Science, pages 133147. Springer-Verlag, 1991. Robin Milner. A Calculus of Communicating Systems, volume 92 of LNCS. SpringerVerlag, New York, NY, 1980. Robin Milner. Communication and Concurrency. Prentice-Hall, 1989. Robin Milner, Joachim Parrow, and David Walker. A calculus of mobile processes, I and II. Information and Computation, 100 (1):140 & 4177, 1992. Roberto Segala and Nancy Lynch. Probabilistic simulations for probabilistic processes. Nordic Journal of Computing, 2 (2):250273, 1995. An extended abstract appeared in Proceedings of CONCUR 94, LNCS 836: 2225. Robin Milner, Joachim Parrow, and David Walker. A calculus of mobile processes, I and II. Information and Computation, 100 (1):140 & 4177, 1992. U. Engberg and M. Nielsen. A calculus of communicating systems with label-passing. Report DAIMI PB-208, Computer Science Department, University of Aarhus, 1986. W. Reisig. Petri nets. EATCS Monographs on Theoretical Computer Science, 1983.

14

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Aplicando Algoritmos de Clasificacin en la Prediccin de Genes. Applying Classification Algorithms in Gene Prediction.
Bedoya, Oscar oscarbed@eisc.univalle.edu.co Universidad del Valle Colombia

Resumen El problema de la prediccin de genes se ha convertido, en la actualidad, en uno de los principales retos para los bioinformticos. Con el objetivo de apoyar la prediccin de genes por medios computacionales, se han desarrollado diversas herramientas [1], [2], [3]. Las herramientas propuestas hasta el momento, construyen un modelo que permite determinar si una subsecuencia de ADN es, o no un exn, esto es, una secuencia que codifica para protenas. Este modelo, se puede construir mediante diferentes tcnicas, entre las que se encuentran los rboles de decisin y las cadenas ocultas de Markov. Sin embargo, la construccin del modelo es aun un problema por explorar, ya que es posible que los predictores ofrezcan, para una misma secuencia, diferentes decisiones. En este artculo se propone la construccin de tres modelos de exones construidos con base en la aplicacin de algoritmos de clasificacin por rboles de decisin y mquinas de soporte vectorial. Dos de los tres modelos propuestos alcanzaron una especificidad mayor que los modelos de los predictores existentes, incluidos GenZilla y GenScan. Palabras clave: modelo de exones, prediccin de genes, clasificacin, rboles de decisin, mquina de soporte vectorial, bioinformtica. Abstract Finding genes in DNA is a central problem in bioinformatics. One of the most important steps in the analysis of DNA is finding out whether or not it contains any exons. Exons are coding regions in DNA that form proteins. In order to support gene prediction by computational methods, a number of algorithms have been developed [1], [2], [3]. Most of those algorithms contain a model that allows determining whether a subsequence of DNA is, or not, an exon, this is called the exon model. An exon model can be constructed by using any type of computational techniques, including Hidden Markov Models and Decision Trees. Nevertheless, constructing a model is still a problem to explore, considering it is possible that two predicting tools offer, for the same sequence, different decisions. In this article three exon models are proposed based on the application of decision trees and support vector machines algorithms. Two out of three proposed models reached specificity greater than the existing predicting models, including GenZilla and GenScan. Keywords: exon model, gene prediction, classification, decision trees, support vector machine, bioinformatics.

15

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Bedoya Leyva, Oscar. Colombia. Ingeniero de Sistemas (Universidad del Valle). Maestra en Ingeniera de sistemas y computacin (Universidad del Valle). Lneas de Investigacin: Aplicacin de algoritmos de minera de datos. oscarbed@eisc.univalle.edu.co

16

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Representacin de secuencias de ADN y protenas mediante el juego del caos y su anlisis multifractal Representation of DNA and protein sequences using the chaos game representation and multifractal analysis
Blanco, Sandra , Vlez, Patricia E. y Moreno, Pedro A. *pedroam@eisc.univalle.edu.co 1) Escuela de Ingeniera de Sistemas y Computacin. Grupo GEDI, Grupo de Bioinformtica y Grupo BIMAC. Facultad de Ingeniera. Universidad del Valle, Santiago de Cali, COLOMBIA. 2) Departamento de Biologa. Grupo de Biologa Molecular, Ambiental y Cncer (BIMAC)*. Facultad de Ciencias Naturales, Fsicas Exactas y la Educacin. Universidad del Cauca, Popayn, COLOMBIA.
1 2 1*

Resumen
En este trabajo desarrollamos una aplicacin bioinformtica para el anlisis multifractal de secuencias de ADN y protenas colocadas sobre un soporte de la representacin del juego del caos (RJC). La herramienta permite obtener una matriz de probabilidades de los di- y trinucletidos en la secuencias de ADN, o de los aminocidos (en el modelo HP) mediante cadenas de Markov de primer y segundo orden, a fin de visualizar la frecuencia, obtener la representacin de la medida, calcular el espectro multifractal y establecer las relaciones filogenticas entre un grupo de secuencias dada. Palabras claves: Secuencias de ADN y protenas, RJC, y anlisis multifractal

Abstract
In this work we developed a bioinformatics tool for the multifractal analysis of DNA and protein sequences using the chaos game representation (CGR). This application allows getting a likelihood matrix with first and second Hidden Markov Model in order to visualize the frequency of di and tri-nucleotides in DNA sequences, or aminoacids (HP model), to obtain the measure representation, the multifractal spectrum, and establishing phylogenetics relationships among several sequences. Keywords: DNA and protein sequences, CGR, and multifractal analysis.

Representacin de secuencias de ADN y protenas mediante el juego del caos y su anlisis multifractal Introduccin
Actualmente existe un gran nmero de bases de datos (http://www.ncbi.nlm.nih.gov con ms de 100 Giga pares de base, Gpb) que contienen informacin relevante a secuencias de ADN y protenas obtenidas a partir de diversos organismos, incluido el genoma humano (Venter et al., 2001). Esta informacin biotecnolgica es aplicable al estudio de problemas tericos y prcticos propios de la biologa molecular, la biotecnologa, la medicina, la agricultura y la farmacologa,

17

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

entre otros. A fin de descubrir reglas que permitan predecir la manera como la informacin biolgica esta codificada en los genes y genomas se han planteado diversos abordajes experimentales y tericos (matemticos y estadsticos). Unos de estos enfoques tericos es el anlisis fractal, un mtodo no linear que busca encontrar en las secuencias de ADN correlaciones de corto y largo alcance con significado biolgico. Entre estos enfoques, la representacin del juego del caos (RJC, o CGR del ingls) es un mtodo desarrollado por Jeffrey, 1990, donde las secuencias de ADN son representadas en un soporte cuadrado, siendo cada base nitrogenada asignada a uno de los vrtices del 4-gono. El fundamento matemtico de la RJC yace en el concepto de Sistemas de Funciones Iteradas (SFI) las cuales permiten analizar auto-similaridades no lineales (similares a fractales) entre secuencias de ADN. En sus inicios esta representacin era solamente grfica y secuencias con un alto grado de homologas solo podan discriminarse por inspeccin visual de patrones igualmente similares. A fin de cuantificar las variaciones observadas en las RJCs generadas por las secuencias de ADN, Gutirrez et al., 1998 propusieron un mtodo matemtico con base en el desarrollo de una medida de la RJC y su anlisis multifractal (Mandelbrot, 1988). Un multifractal es una estructura donde coexisten simultneamente varios fractales. Posteriormente, otros mtodos alternos de anlisis multifractal para secuencias de ADN fueron desarrollados a travs de series de Fourier (Yu et al., 2001). Por otra parte, la RJC tambin ha sido extendida al estudio de las secuencias de protenas. En estos, las secuencias eran representadas a travs de un 20-gono, donde cada vrtice del polgono representa uno de los 20 animocidos que conforman las protenas (Fiser et al., 1994). Luego, con el fin de encontrar patrones ms evidentes en las secuencias de protenas, se creo un nuevo algoritmo para generar la representacin del juego del caos basndose en las familias de protenas (Dutta et al, 1997). Posteriormente, se utiliz la RJC para representar las secuencias de protenas, con base en el modelo HP extendido (Yu et al, 2004) con el cual los resultados fueron optimizados considerablemente. Aunque el anlisis de secuencias de protenas y ADN a travs del uso de la RJC, ha sido utilizado por los bilogos, actualmente no se cuenta con una herramienta que realice de manera unificada la RJC y el anlisis del multifractal resultante de esta representacin. En el presente trabajo se desarroll una herramienta que permite realizar de manera unificada la RJC para secuencias de ADN y protenas, efecta el anlisis multifractal de la representacin generada y establece las relaciones filogenticas entre las secuencias analizadas.

Materiales y Mtodos
En 1990 Jeffrey presenta un nuevo mtodo para representar secuencias de ADN, basado en una tcnica dinmica catica, con este mtodo se genera una imagen de las secuencias de ADN, que nos permite identificar patrones tanto locales como globales. La imagen generada muestra una estructura compleja, la cual vara para cada secuencia representada. Para realizar la representacin del juego del caos de una secuencia de ADN se sigue el siguiente procedimiento: Primero se dibuja un cuadrado y cada esquina del cuadrado es etiquetada con cada una de las bases A, C, T y G. Luego se selecciona la primera base de la secuencia y se dibuja un punto en medio del punto central del cuadrado y la esquina del cuadrado que corresponde a la primera base de la secuencia. Posteriormente para cada base de la secuencia, hasta que sta sea recorrida completamente, se dibuja un punto en medio del ltimo punto dibujado y la esquina que corresponde a la base seleccionada. Uso de frecuencias de mono-, di- y trinucletidos para explicar los patrones observados en la RJC de secuencias de ADN Las cadenas de Markov representan un modelo sencillo que permite la simulacin de estas caractersticas de las secuencias de ADN. En este modelo, una matriz de 4 x 4 P define la probabilidad en la que una subsecuencia de bases sigue a la base actual en la secuencia de ADN.

18

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Si las bases etiquetas A, C, G y T son representadas con los nmeros 1, 2, 3 y 4, entonces Pij, el j-simo elementos de la i-sima fila de P, define la probabilidad en que la base j sigue la base i. Utilizando esta matriz es posible obtener una secuencia de ADN simulada, la primera base es seleccionada de forma aleatoria, y de acuerdo a las frecuencias de las de la secuencia bajo estudio, se obtiene la siguiente bases en la secuencia. Si esta base es i, entonces las probabilidades Pi1, Pi2, Pi3, y Pi4, y son utilizadas para obtener la siguiente base y as se continua con cada siguiente base hasta que la secuencia simulada alcance la misma longitud de la secuencia original. El modelo de cadenas de Markov de primer orden, en el cual las siguientes bases en la secuencia dependen nicamente de la base anterior, han sido utilizadas exitosamente para describir las secuencias de ADN de los humanos y otros vertebrados. Las probabilidades de la matriz P pueden ser estimadas directamente por medio del clculo de la frecuencia de dinucletidos en la secuencia. Si el dinucletido XY es observado nxy veces en la secuencia, la probabilidad de Pxy es calculada por nxy / (nxA + nxC + nxG + nxT). Esto permite que la secuencia de ADN sea simulada con la frecuencia de las bases y la frecuencia de los dinucletidos de la secuencia original. En algunos casos, el modelo de cadenas de Markov de primer orden, podran no permitirnos observar patrones, pero los modelos ms complejos de cadenas de Markov de segundo orden, en el cual cada base depende de las dos anteriores, han sido utilizados para describir las secuencias codificantes y no codificantes de secuencias de ADN. Pxyz, la probabilidad de que la base Z seguida del dinucletido XY, es calculada directamente de las frecuencias de los trinucletidos utilizando la formula Pxyz = nxyz / (nxyA + nxyC + nxyG + nxyT). Anlisis de genomas completos mediante la representacin de la medida Cualquier cadena hecha de K letras de el conjunto {g, c, a, t} es llamada una k-cadena. Para un k dado hay en total 4k diferentes k-cadenas. Para contar el nmero de cada tipo de k-cadena de una secuencia dada de ADN se necesitan 4k contadores. Nosotros dividimos el intervalo [0,1] en 4k subintervalos disjuntos y usamos cada subintervalo para representar un contador. Sean s = s1sk,si {a, c, g, t}, i = 1,.,k sea un subcadena con longitud k, definimos:

donde

Nosotros usamos el subintervalo [xl(s),xr(s)] para representar la subcadena s. sea Nk(s) el nmero de veces que la subcadena s con longitud k aparece en el genoma completo. Si el nmero de bases en el genoma completo es L, nosotros definimos

19

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

sea la frecuencia de subcadenas s, nosotros definimos una medida Y(x)dx donde

en [0.1] por d

k(x)

Con base en lo cual tenemos que

Nosotros llamamos dado.

la representacin de medidas del organismo correspondiente para un k

Todos los F(s) pueden ser ordenados de acuerdo a los ordenes incrementales de xl(s) y entonces obtenemos una secuencia de nmeros reales consistentes de 4k elementos que denotamos como F(t), t = 1,..,4k. Si la secuencia {F(t)}kt=1 es visualizada como una serie de tiempo, podemos realizar el anlisis espectral de la secuencia. Primero consideramos la transformada discreta de Fourier de la serie de tiempo F(t), t = 1,..,4k, definida por

entonces

Es el espectro de emerga de F(t). En estudios recientes se ha encontrado que varios fenmenos naturales conduce a un espectro de energa de la forma 1/f . Este tipo de dependencia fue llamada ruido 1/f, en contraste con el ruido blancoS(f) = const , = 0. Sea la frecuencia f dados unos valores de K fk = k/N,k = 1,,N/8. De la grfica ln[(s(f)] vs ln(f) se puede obtener el valor de usando el rango de baja frecuencia. La dimensin fractal generalizada de una medida es obtenida usando el mtodo de BoxCounting:

donde es el tamao del lado de las cajas y B representa las cajas no vacas de la representacin de medidas. Los valores de Dq son calculados a partir de la pendiente de la regresin lineal. D1 es llamada la dimensin de informacin y D2 es llamada la dimensin de correlacin. Los Dq de valores positivos de q son asociados a k-cadenas que se presentan con mayor probabilidad. Los Dq de valores negativos de q son asociados con la estructura y propiedades de las regiones poco frecuentes en la medida. Anlisis de secuencias de Protenas basados en la representacin del juego del caos

20

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

A continuacin se presentan los estudios ms significativos, realizados sobre el anlisis de secuencias de ADN basado en la representacin de juego de caos: Representacin de la estructura de las protenas mediante el juego del caos La representacin del juego del caos propuesta por Jeffrey para la representacin de secuencias de ADN, puede ser generalizada y aplicada para realizar el anlisis de secuencias de protenas. Esta generalizacin puede ser realizada de mltiples formas; en el ms simple de los casos el cuadrado puede ser reemplazado por un polgono regular de n lados ( n-gono), donde n son los diferentes elementos en la secuencia que podran ser analizados. En este caso el fractal sera un n-gono, dentro del cual hay pequeos n-gonos separados en cada vrtice. Los pequeo n-gono contienen a su vez pequeos n-gonos en sus vrtices, presentndose esta propiedad de forma recursiva en cada n-gono. En este caso el rango de divisin establecido ser: S = S1 : S2 donde Las coordenadas x,y para cada vrtice i son:

Las coordenadas para el m-simo punto son:

Como una protena esta conformada por 20 tipos de aminocidos, un polgono regular de 20 lados y un radio de divisin S = 0.135 : 0.865 es el ms adecuado para realizar la representacin de la secuencia. Cuando hay unos pocos miles de puntos se podran identificar los residuos poco frecuentes y patrones en la secuencia. En las reas donde hay pares o tripletas poco comunes, los puntos presentados son pocos. Cuando el nmero de residuos excede 105, todos los polgonos se ven completamente llenos y es casi imposible identificar los patrones que se encuentran presentes. La representacin del juego del caos puede ser utilizada para estudiar la estructura 3D de las protenas. Las conformaciones proteicas pueden ser caracterizadas a travs de secuencias de ngulos didrales ( ) de los enlaces simples de los tomos C en la cadena de polipptidos. La conformacin de una cadena de polipptidos puede ser caracterizada por medio de reas de baja energa en la cadena de polipptidos. Entonces la cadena de protenas puede ser representada utilizando un 16-gono en lugar de un 20-gono. En la mayora de los casos, una descripcin menos detallada de la estructura, con referencia a las estructuras hlice, hoja, giro y enrollamiento aleatorio, ser utilizada para caracterizar la estructura polipptida. Cuando se cuenta exactamente con los cuatro elementos, la representacin del juego del caos puede ser realizada como fue propuesta originalmente, reemplazando los cuatros nucletidos por los cuatros elementos de la estructura secundaria. Representacin del juego del caos de secuencias de protenas basada en el modelo HP detallado Con base en la representacin del juego del caos de las secuencias de ADN propuesta por Jeffrey, se presenta una representacin del juego del caso de las secuencias de protenas utilizando el modelo HP detallado. Las secuencias de protenas esta formadas por veinte aminocidos, los cuales, segn el modelo HP son divididos en cuatro clases: no polar, polar negativa, polar no cargada y polar positiva. Los residuos A, I, L, M, F, P, W, V son agrupados en la clase no polar, los dos residuos D y E conforman la clase polar negativa, los siete residuos

21

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

N, C, Q, G, S, T, Y son clasificados como polares no cargados y los tres residuos restantes son agrupados en la clase positiva polar. Para una secuencia de protenas S = S1,.,Sl con longitud l, donde Sl es uno de los veinte tipos de aminocidos. Se define

Entonces obtenemos la secuencia X(s) = a1,.al, donde es una letra del alfabeto {0,1,2,3}. Luego se define la representacin del juego del caos para la secuencia X(s), similar a la representacin de secuencia de ADN, en un cuadrado [0,1][0,1], donde los cuatro vrtices corresponden a las cuatros letras 0, 1, 2 ,3 : el primer punto es colocado en el medio del centro del cuadrado y la esquina que corresponde a la primer letra de la secuencia. Luego el i-simo punto de la secuencia, es dibujado en el medio del (i-1)-simo y la esquina del vrtice que corresponde a la i-sima letra. Considerando los puntos de la representacin del juego se define una medida con (B) = (B)/Nl , donde (B) es el nmero de puntos dentro del subconjunto B de la representacin del juego del caos y Nl es la longitud de la secuencia. El cuadrado puede dividirse en celdas de tamao 64 x 64, 128 x 128, 512 x 512 o 1024 x 1024. El resultado de esto es una medida por cada celda. Luego se obtiene una matriz A de 64 x 64, 128 x 128, 512 x 512 o 1024 x 1024, donde cada elementos es el valor de la medida para la celda correspondiente. La matriz A es llamada la matriz de medida del organismo. Modelo en cascada del proceso de desarrollo de la aplicacin Para el desarrollo de la aplicacin se plante un modelo en Cascada detallado a fin de definir las funcionalidades que la aplicacin debera tener. El modelo en cascada detallado es una extensin del modelo clsico del proceso de desarrollo de software. Este es una secuencia de actividades (o etapas) que consiste en el anlisis conceptual, anlisis de requerimientos, el diseo, la implementacin, la integracin y las pruebas.

22

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Definicin de algunos requerimientos Requerimientos funcionales Descripcin de los casos de uso

Resultados y Discusin
Nosotros desarrollamos e implementamos, por primera vez y en una sola aplicacin, una herramienta bioinformtica para el anlisis de secuencias de ADN y protenas mediante la RJC. La aplicacin permite generar la RJC de la secuencia (Fig. 1), cuantificar su medida, calcular el espectro multifractal (Tabla 1 y Fig. 2) y determinar mediante un anlisis filogentico las relaciones de similaridad entre los espectros y por ende, entre las secuencias comparadas. Estos anlisis permiten cuantificar la cantidad de informacin de las secuencias y establecer relaciones filogenticos entre estos. El anlisis tambin permite obtener grficas bidimensionales entre las dimensiones de informacin y correlacin (Fig. 3) como un criterio de anlisis de discriminacin.
Fig. 1. RJC del genoma del Mycobacterium tuberculosis (Mtbc).

Fig. 2. Espectros multifractales de los 12 genomas analizados. Arqueobacterias (AAper: Aeropyrum pernix, Aful: Archaeoglobus fulgidus, Paby: Pyrococcus abyssi, Phor: Pyrococcus horikoshii OT3, Mjan: Methanococcus jannaschii, Hsp.: Halobacterium sp. NRC-1, Tvol: Thermoplasma volcanium GSS1, Mthe: Methanobacterium thermoautotrophicum deltaH, y Ssol: Sulfolobus solfataricus). El genoma de una Eubacteria gram-positiva: el Mtbc, con altos contenidos de (G+C) como control. Observe como los q negativos del Mtbc tienen los Dq ms bajos. Y dos Eubacterias gram-negativa, la hipertermfila Aaeo: Aquifex aeolicus y el Tmar: Thermotoga maritima.

23

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 1. Valores entre Dq(q=-15) y Dq(q=15) para los 12 genomas bacterianos analizados.

Fig. 3. Correlacin entre las dimensiones de informacin (D1) y correlacin (D2) de los genomas comparados. Observe el alto grado de correlacin que existe entre las dos dimensiones.

Adicionalmente, la aplicacin permite determinar la medida de calor especfico anlogo Cq (Fig. 4), de la representacin de medidas de las secuencias, y realizar diferentes distribuciones bidimensionales con el objeto de visualizar agrupaciones y clasificaciones de las secuencias evaluadas. Finalmente, los rboles filogenticos NJ (Neighborn joining) nos permiten visualizar relaciones entre secuencias y obtener las matrices de probabilidades de cadenas de Markov a fin de observar los patrones presentados en una secuencia.
Fig. 4. Medida de calor especfico anlogo para los 12 genomas bacterianos estudiados.

En sntesis en este trabajo se evalu la aplicacin mediante la ejecucin de siete casos de pruebas (de los cuales presentamos cinco) con secuencias de genomas bacterianos (y sus

24

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

respectivos proteomas) donde se compararon los diferentes parmetros multifractales y de calor especfico, al igual que las relaciones filogenticas esperadas.

Esta herramienta es de gran utilidad prctica para el anlisis de secuencias de genomas y proteomas utilizando la RJC y el anlisis multifractal. En un prximo artculo se publicaran las correlaciones existentes entre el contenido de informacin molecular de los genomas y proteomas comparados y los parmetros multifractales cuantificados.

Referencias
Fiser, Andrs, Tusndy, Gbor E. y Simon Istvn. 1994. Chaos game representation of protein structures. J. Mol. Graphics. Vol 12. Pag 302 -304 Goldman Nick. Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representation of DNA sequences. 1993. Nucleic Acids Research. Vol. 21, No. 10, Pag. 2487 2491 Gutirrez, J. M., Andrs Iglesias, Manuel A. Rodrguez, Javier D. Burgos, Carlos M. Estvez, and Pedro A. Moreno. 1998. Analyzing the multifractal structure of DNA nucleotide sequences. Chaos and Noise in Biology and Medicine. World Scientific Publishing. 315-319. ISBN:98102360X. Jeffrey, H. Joel. Chaos game representation of gene structure. Nucleic Acids Research, 1990. Vol. 18, No. 8, Pag.2163 - 2170 Mandelbrot, B. (1988). Los objetos fractales. Tusquets editores. Barcelona. Venter, J. C. et al., (2001), The Sequence of the Human Genome. Science. 291:1304-1351. Yu Z.G., Anh, V., Lau, K.S. 2001. Measure representation and multifractal analysis of complete genomes. Phys. Rev. E Stat Nonlin Soft Matter Phys. 64(3-1). Yu ZG, Anh V, Lau KS. 2003. Multifractal and correlation analyses of protein sequences from complete genomes. Phys Rev E Stat Nonlin Soft Matter Phys. 2003 Aug;68(2 Pt 1):021913 Yu ZG, Anh V, Lau KS. 2004. Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses. J Theor Biol. 2004 Feb 7;226(3):341-8.

25

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Caracterizacin en Gneros de Arboles y Familias Vegetales de los Cerros Orientales de Bogot desde el Plioceno Medio hasta el Pleistoceno Superior Mediante Anlisis de Regresin Polinmica y Componentes Principales
Burgos, Javier D., Rincn, Magner jdburgoss@unal.edu.co Instituto de Estudios Ambientales (IDEA), Universidad Nacional de Colombia Universidad Distrital Bogot

Resumen Los bosques de niebla de las montaas bajas (elevaciones cerca de 1.300 a 2000m) de los Andes orientales son un punto caliente de biodiversidad y uno de los hbitats ms amenazados sobre el planeta. La topografa escarpada y las altas proporciones de especies endmicas con estrecha distribucin altitudinal hacen de los sistemas Andinos especialmente sensibles a los cambios de clima pasados y presentes. El hbitat perdi a travs de la deforestacin y un calentamiento anticipado de 1 a 4C en el siglo presente originando preocupaciones por la supervivencia de estos sistemas a largo trmino. Aunque ya, los efectos del cambio climtico sobre los sistemas de las montaas tropicales son evidentes en la contraccin de las capas de hielo y la migracin sesgada de algunas especies de pjaros. Los ecosistemas Amaznico y del Alto Andes han mantenido alta diversidad an despus de las fuertes oscilaciones climticas del Pleistoceno, las cuales podran ser tomadas como indicadores de que ellos seran resistentes al cambio climtico futuro. Aqu, mostramos que aunque el calentamiento del Pleistoceno-Holoceno (cerca de 6C) fue ms grande que el anticipado en el siglo siguiente, la tasa del cambo climtico fue cerca del orden de magnitud menor, sugiriendo que estos sistemas sufrieron un cambio en la comunidad imprecedente. Nuestros datos, provenientes del registro paleoecolgico ininterrumpido extendindose los pasados 40.000 hasta 3.500.0000 aos desde los bosques de las montaas ms bajas de los Andes, muestran que este, es un punto caliente de biodiversidad y que tiene una historia de cambios de temperatura profundos pero no rpidos. Los registros continentales de cambios climticos son escasos, pero de gran importancia para facilitar la comparacin entre historias climticas basadas en datos continentales y en datos de los ocanos. El altiplano de Bogot, en la cordillera de Colombia (parte central aprox. 25 por 40 Km. de extensin; superficie plana aproximadamente. 1400 Km2.), representa el fondo de un antiguo lago que ocupaba una cuenca intermontana en subsidencia. Despus del levantamiento final de los Andes del norte, entre 5 y 3 Ma (millones de aos). (Van der Hammen et al., 1973; Helmens, 1990), empez la formacin de un ambiente de cuenca en el rea de la actual Sabana de Bogot hace unos 3.5 Ma. (Helmens 1990). El hundimiento del piso de la cuenca tectnica estuvo, ms menos, en equilibrio con la acumulacin de sedimentos durante la mayor parte del tiempo. Esto result en una secuencia de casi 600m de sedimentos principalmente lacustres (con influjo fluvial en el comienzo). Los registros de polen fueron recuperados de perforaciones profundas en estos sedimentos. Durante perodos de bajos niveles del lago en la parte central de la cuenca, la acumulacin de sedimentos se interrumpi en las

26

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

partes perifricas. Esto caus la presencia de discontinuidades en los registros de polen provenientes de las partes perifricas de la cuenca (Van der Hammen & Gonzlez, 1960, 1964). El objetivo de este manuscrito es presentar una visin general de la historia contnua del desarrollo de la vegetacin y los cambios climticos durante aprox. Los ltimos 3 Ma, con base en los datos que estn basados en las perforaciones profundas Funza I (357m.) y Funza II (586m.), recobrado en 1988, alcanz la roca dura basal, indicando as que se ha recobrado del relleno completo de la cuenca, que representa el intervalo desde el Plioceno tardo hasta el final del Pleistoceno. Los cambios en la composicin de la vegetacin, que a su vez reflejan cambios climticos, son documentados por medio de la lluvia de polen conservada en sedimentos lacustres de lenta acumulacin. Las montaas tropicales parecen estar en una posicin favorable porque los cambios climticos resultando principalmente en un desplazamiento vertical de las zonas de vegetacin por las laderas de montaa. Las diferentes zonas de vegetacin en cercana del lago son registradas continuamente por medio de su polen depositado en los sedimentos lacustres. Los sedimentos de la cuenca de Bogot, a 2.550 m.s.n.m., se acumularon a una altitud que se encuentra a mitad de camino entre la posicin ms alta del lmite superior del bosque (aprox. 1.800 m durante condiciones glaciales). Esto convierte a los sedimentos de Bogot en un registro sensitivo del cambio paleoclimtico. Breve Descripcin de La Vegetacin y el Clima Actuales Se resumieron las actuales zonas altitudinales de vegetacin, para la comprensin de los cambios documentados por el registro del polen. Relaciones ms completas de la vegetacin actual de los bosques andinos y los pramos son presentadas por autores como Cleef (1981), Cleef et al. (1983) y Cleef y Hooghiemstra (1984) y por Rangel, Cleef y Salamanca en la serie Estudios de Ecosistemas Tropandinos. Se pueden reconocer las siguientes zonas de vegetacin: Selva ecuatorial de 0 a 1.000 m.s.n.m. Gneros palinolgicamente importantes son: Byrsonima, Iriartea y Mauritia. Bosque subandino (bosque montano bajo) de 1.000 a 2.300 m.s.n.m. Gneros importantes son: Alcalypha, Alchornea y Cecropia. Bosque Andino (bosque montano alto) de 2.300 a 3.200-3.500 m.s.n.m. Gneros importantes son: Podocarpus, Hedyosmum, Weinmannia, Quercus, Alnus, Vallea, Myrsine (anteriormente Rapanea), Symplocos, Ilex, Juglans, Miconia, Eugenia y Myrica. Subpramo de 3.200-3.500 a 3.400-3.600 m.s.n.m. Gneros importantes palinolgicamente son: Ericaceae, Hypericum, Compositae y Polylepis/Acaena. Pramo de Gramneas de 3.400-3.600 a 4.000-4.200 m.s.n.m. Familias gneros importantes son: Gramineae, Valeriana, Caryophyllaceae, Plantago, Aragoa, Geranium, Ranunculus y Lycopocium (especies de esporas foveoladas). Superpramo de 4.000-4.200 m.s.n.m. para arriba. Gneros o grupos importntes son: Draba, musgos y algas azules. Zona de nieve perpeta. Prcticamente libre de vegetacin, se extiende de 4.500-4.800 m.s.n.m. para arriba.

27

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Las partes ms altas de la cordillera oriental (hasta 5.500 m.s.n.m., en la sierra nevada del Cocuy, a unos 200 Km. Al norte de Bogot) pueden estar permanentemente cubiertas de nieve. Durante perodos glaciales temperaturas ms bajas causaron una depresin de las franjas andinas de vegetacin y se ha evidenciado un descenso del lmite superior del bosque de aprox. 1.200-1.500 m (Van der Hammen 1973). El actual lmite superior del bosque aprox. 3.200-3.300 m en el rea de Bogot, corresponde con el isotermo anual de aprox. 9.5C. Por consiguiente se pueden calcular los cambios de temperatura al nivel de la Sabana de Bogot (2.550 m, actual temperatura media anual de 13-14C), cuando los cambios en la posicin altitudinal del lmite superior del bosque son estimados con base en el registro del polen, usando una tasa de 0.66C de diferencia por cada 100 m de desplazamiento del lmite superior del bosque. Las Causas del Cambio Climtico Los cambios ambientales esbozados arriba fueron socalzados por el cambio climtico. El cambio climtico ha sido una caracterstica del planeta Tierra desde que apareci en la existencia y muchas otras teoras han sido propuestas para explicarlo. Hasta ahora, la mayora de tales teoras consideraron el cambio climtico como una entidad separada que forz el cambio en la litosfera, biosfera, etc. Ahora, sin embargo, es reconocido que el cambio climtico puede ser generado desde adentro del sistema de la Tierra, por la reciprocidad que existe entre los varios componentes. A pesar de todo, hay evidencia que factores externos tambin son importantes, aquellos incluyen el modo en el cual la Tierra rota alrededor del Sol y tambin el impacto de meteoritos. Algunas de las teoras que conciernen al cambio climtico han sido referidas, p.e. la construccin de montaas y radiaciones biticas. Es probable que la mayor parte del cambio climtico se deba a ms de una causa, por las complejas interrelaciones entre los componentes de la Tierra. Por otra parte, es difcil, sino imposible, determinar cuales factores son factores de fuerza, esto es, factores que contribuyen al cambio cuando ellos mismos han sido afectados por el cambio inicial. Entre las causas de mayor aceptacin del cambio climtico esta la teora de Milankovitch (Caja 1). Mientras esta teora fue formulada en 1930, esta fue reinstalada como una proposicin seria por el trabajo de Hays et al. (1976), la cual reconoci los principales tres ciclos de Milankovitch en los registros de los istopos de oxigeno de los ncleos de sedimento ocenico. En particular es considerado que los cambios en la excentricidad de la orbita conducen al ciclo glacial-interglacial. Los ciclos de sesgo axial influencian el patrn de los estadiales; el ciclo que implica la precesin de los equinoccios puede causar interestadiales por desarrollar (revisado en Imbrie et al., 1993). As el modo en el cual la Tierra da vueltas alrededor del Sol influencia el cambio climtico, porque este hace variar la cantidad de la radiacin solar recibida en la superficie de la Tierra (insolacin). Esto es particularmente importante en las latitudes altas del Hemisferio Norte. Sin embargo, la excentricidad orbital tiene nicamente un efecto limitado sobre la insolacin y es considerado ahora que otros factores deben contribuir al enfriamiento global. Las posibilidades incluyen cambios en la circulacin ocenica, causada por una variedad de mecanismos y cambios en la composicin de la atmsfera: la deplecin de los gases invernadero notablemente. Ciertamente, el aumento

28

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

y cada en la concentracin del dixido de carbono y metano que ocurri en los ncleos de hielo polar, episodios paralelos de enfriamiento y calentamiento global. Posiblemente el orbital de fuerza Milankovith crea retroalimentacin positiva, que hace a la biosfera y/ a los ocanos a actuar en una manera reafirmante al absorber los gases invernadero.
Los factores de fuerza astronmicos implicados en la teora Milankovitch (teora astronmica) del cambio climtico A. Excentricidad orbital. La orbita de la Tierra alrededor del Sol varia y es ms bien elptica que circular. Cuando la Tierra esta en el punto ms lejano del Sol, el enfriamiento ocurre. La periodicidad de la excentricidad de la orbita se considera ser un factor mayor en el crecimiento y disminucin de las eras de hielo. B. Inclinacin Axial. La inclinacin del eje alrededor del cual la Tierra rota causa su estacionalidad. Esto tambin determina la intensidad de la radiacin incidente. Cuando el ngulo de inclinacin esta en su mnimo, 21.8, la radiacin incidente en el hemisferio norte es c. 15 por ciento menos que cuando el ngulo de inclinacin esta en su mximo, 24,4. Los periodos de mnima inclinacin por lo tanto se relacionan con el enfriamiento. C. Precedencia de los equinoccios. Esto ocurre debido a la oscilacin del eje de la Tierra. Esto controla la cantidad de radiacin solar recibida en la superficie de la Tierra al influenciar la estacin en la cual el hemisferio norte esta ms cerca del Sol. En particular; es posible que se desarrolle una era de hielo cuando el hemisferio norte esta ms lejos del Sol en verano. D. Variaciones en la radiacin solar resultantes de los parmetros A, B, C sealados arriba.

Otras posibilidades de contribucin al cambio climtico son la actividad tectnica/levantamiento de la tierra y las oscilaciones en la actividad de las manchas solares. Las lteriores exhiben ciclos de 18,6 aos y 11 aos, reflejando oscilaciones en la cantidad de energa calrica emitida por el Sol (revisado en Mannion, 1997b). Es sin embargo, dismil que tales oscilaciones precipitasen un cambio climtico mayor; verdaderamente, en vista de muchas demandas que han sido hechas por las correlaciones entre los ciclos de las manchas solares y riadas, plagas, sequas, hambrunas, etc., es difcil tomar seriamente los ciclos de las manchas solares. Por otro lado, orognesis puede bien contribuir al cambio climtico. En particular es importante considerar porque las eras glaciales de los ltimos 3 106 aos se desarrollaron de modo alguno y hay una causa compartida en los primeros aos de las eras de hielo? Raymo y Ruddiman (1992) y Raymo (1994) han sugerido que las eras de hielo fueron impelidas por los levantamientos tectnicos que resultaron en el engrandecimiento del estado atmosfrico, esto es la divisin de las rocas a travs de medios fsicos y qumicos. Ellos sugieren que el levantamiento de las altiplanicies Tibetana y del Colorado en la poca del Plioceno podra haber alterado la estructura de las corrientes de aire de la parte ms alta de la atmsfera, esto es, las corrientes chorro, resultando en el translado del aire fro proveniente de las altas latitudes del norte central. Este enfriamiento de las masas de Tierra coincidi con el enfriamiento adicional causado por

29

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

la fuerza orbital. Raymo y Ruddiman (1992) tambin indic un increment en el estado atmosfrico qumico de los silicatos, aumentado por el levantamiento, dixido de carbono atmosfrico consumido y as se redujo el efecto invernadero. Adicional a este efecto es la clausura hace 3 106 aos del Istmo de Panam al separar los ocanos Atlntico y Pacfico y es claro que entre 3.5 106 y 2.5 106 aos numerosos, cambios hubiesen ocurrido que podran haber contribuido a la arremetida de las edades de hielo Terciaria/Cuaternaria. La Sabana de Bogota Como Sensor Paleoclimtico Durante una buena parte del Pleistoceno (ltimos 2,5 millones de aos), la Sabana de Bogot fue un lago. En su extensa historia presenta cambios frecuentes de nivel, especialmente durante pocas interglaciales en las cuales el lago se contraa y dejaba una amplia zona pantanosa y boscosa entre su orilla y el pie de los cerros (Van der Hammen & Gonzalez 19601963). El lago de Bogot desapareci hace aproximadamente 30000 aos pero mas hacia el norte, existe todava la Laguna de Fquene, que proporciona diagramas de polen que cubren el ultimo ciclo interglacial glacial (Van der Hammen, 1988). Con la informacin obtenida a partir de las excavaciones realizadas en estas formaciones, se construyeron diagramas detallados del polen presente que fueron muestreados al azar, donde se puede observar que la vegetacin tuvo cambios dinmicos en su composicin (Andrs Barragn, 2004). Estos diagramas representan largas secuencias alternantes de fases de bosque y fases de pramo, correspondientes a periodos relativamente ms clidos (interglacial) y ms fros (glacial) (Van der Hammen, 1988). Los diagramas de polen de la Ciudad Universitaria, de Tarragona, de Funza y de Fquene aportan datos sobre la vegetacin de carcter regional, es decir los granos de polen de la laguna provienen de una amplia zona y representan la vegetacin de la planicie, pero especialmente la de los cerros que rodean el altiplano (por encima de los 2600) (Van der Hammen, 1988). Hace unos seis millones de aos comienza el gran levantamiento final de la Cordillera Oriental, hasta llegar a su altura actual hace tres millones de aos (Van der Hammen, 1988), a partir de este momento comienza la ocupacin de la vegetacin de montaa en los cerros orientales, la cual fue invadiendo estos nuevos hbitats que hasta el momento carecan de vegetacin dominante (Andrs Barragn, 2004). Finalmente la teora cclica de las fuerzas implicadas en el cambio climtico (Milankovitch M., 1920) que sustenta la existencia de patrones que comprenden desde el estado glacial fri hacia el calentamiento del estado interglacial, el cual caracterizo el cambio en la temperatura global en un promedio entre 5C y 10 C. Este cambio no fue globalmente uniforme, con grandes diferencias de temperatura en latitudes media alta. Esto conlleva a la alteracin de la composicin atmosfrica porque altera las concentraciones de dixido de carbono y metano.

30

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

De otra parte las muestras de polen tomadas en este tipo de bosques, nos darn evidencia suficiente para confirmar si la dinmica de la cobertura vegetal esta relacionada con las teoras de sucesin y cambio climtico en bosques tropicales. Metodologa Estadstica Se utilizaran mtodos de regresin y multivariados principalmente del rea de la estructura de covarianza para producir variables artificiales que permitan caracterizar sintticamente la dinmica de la cobertura vegetal de los cerros orientales. As mismo se empleara tcnicas estadsticas que permitan apoyar la hiptesis de que la cobertura vegetal es cambiante a travs del tiempo y su influencia con respecto al clima. Con respecto a los datos climatolgicos, se tabular la informacin en Excel organizando cronolgicamente los datos en cuatro grupos de acuerdo a la altura de las perforaciones en M.SN.M, la cual debe contener la relacin del porcentaje de polen entre la vegetacin de pramo y bosque, junto con las variables de clima predominante. El anlisis estadstico se inicia con una base de datos en Excel de 232 muestras y 24 variables. Las variables estn constituidas por especies de rboles, arbustos y algunas familias de plantas que tienen el porcentaje de polen por muestra de sedimento obtenido a partir de la perforacin. Materiales y Mtodos Los datos empleados en este anlisis fueron extrados de un estudio realizado por Hooghiemstra H, titulado Los ltimos tres millones de aos en la sabana de Bogot: registro continuo de los cambios de vegetacin y clima, realizado en 1995 en el laboratorio Hugo de Vries, Dpto. de Palinologa, Universidad de Amsterdam. De ste estudio se tomaron 232 muestras de sedimentos lacustres (muestra) a una determinada profundidad que representa la edad en aos (datado por carbono 14) y el periodo y era en el que se encontraba dicha muestra. As mismo la temperatura es inferida a partir del istopo radioactivo del oxigeno 18, obteniendo un mapa que muestra la secuencia de porcentajes de polen en sedimentos para los diferentes especimenes florsticos que conformaban la cobertura vegetal. Datacin de los sedimentos de la sabana de Bogot. (ka = miles de aos ; Ma = millones de aos) Un marco geocronolgico revisado para la secuencia del rea de Bogot fue publicado por Andriessen et al., para reemplazar el marco de tiempo original del registro de polen Funza I (Hooghiemstra, 1984, 1989). Este marco revisado esta basado en 11 fechas de huella de fisin zircones que fueron obtenidos tanto de capas de cenizas en afloramientos como una serie de cenizas del ncleo de Funza II. Las fechas de: 5.33 1.02 Ma, 3.67 0,50 Ma y 2.77 0.55 Ma (Ardiesen et al., 1993), para sedimentos que se considera fueron depositados, respectivamente antes, al comienzo y poco despus del ltimo gran levantamiento de la cordillera oriental que provee un control cronolgico absoluto para la parte ms antigua de la secuencia 6-2.5 Ma. Fechas de huellas de fisin sobre zircn del ncleo de Funza II proveen el control geocronolgico para la parte ms joven la secuencia (3-0 Ma) y estos son coherentes con las huellas de fisin de las partes ms antiguas de la secuencia de sedimentos.

31

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Considerando que las muestras de sedimentos no se suceden a intervalos de tiempo constantes (por la datacin de carbono 14), con la variable edad del sedimento se clasifican las muestras por periodos geolgicos. stos son: Plioceno Medio (muestras con ms de 2.800.000 aos de antigedad) Plioceno Tardo (muestras entre 2.800.000 y 1.600.000 aos de antigedad) Pleistoceno Temprano (muestras entre 1.600.000 y 1.070.000 aos de antigedad) Pleistoceno Medio (muestras entre 1.070.000 y 540.000 aos de antigedad) Pleistoceno Tardo (muestras con menos de 540.000 aos de antigedad). Con estos datos se pretende establecer una relacin lineal entre la edad y el porcentaje de polen hallado de los diferentes especimenes junto con el periodo al que pertenecen, haciendo posible caracterizar adecuadamente los ecosistemas de la Sabana de Bogot y as obtener un panorama claro sobre la distribucin de los especimenes vegetales. Componentes Principales Los componentes principales es una tcnica que transforma ciertas variables en otras incorrelacionadas, de media cero, que pueden escribirse como combinaciones lineales de las primeras y que se llaman componentes principales, las cuales pueden ordenarse por la magnitud de su varianza la cual est dada por un valor propio de la matriz (en la prctica de ) (ver Jonson and Wishern 2002). El procedimiento e realizo organizando la base de datos en cuatro grupos y se transformo la variable tiempo dividiendo por un milln y as mismo la variable altura restando la profundidad del punto de muestreo de acuerdo a la altura en metros sobre el nivel del mar si es montaa. Los componentes principales tienen como objetivo construir variables que permitan hacer una medicin global y cuantificar el aporte de cada espcimen en el conjunto total de la cobertura vegetal, de lo cerro orientales de Bogot, con respecto al tiempo. A continuacin se muestra la salida de los componentes principales y sus respectivos autovalores en el programa SAS v.8: Grupo 1 El grupo 1 es el ms reciente en tiempo y va desde los 42016 aos hasta 1.055.813 millones de aos de antigedad y un intervalo de altura desde los 2075 hasta 2550 m.s.n.m.
GRAMINEA SUM PODOCARPUS COMPOSITAE WEINMANNIA POLYLEPIS ALNUS HYPERACEAE MYRICA Prin1 0.387059 0.397571 0.395044 -.016022 -.004304 0.388098 0.122940 0.058431 0.385714 Prin2 -.112249 -.042237 -.050690 -.140524 0.167493 -.086813 0.320599 0.211312 -.122104 Prin3 0.017301 -.019980 -.018578 0.669966 -.674417 0.010167 0.154377 0.129955 0.029781

32

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

ERICACEAE RAPANEAE HEDYOSMUN MICONEA JUGLANS

0.033626 0.257453 0.233173 0.143726 0.274635

0.398256 0.476827 -.457249 -.172295 0.375005

-.047334 0.089236 -.197268 -.060391 0.028061

Valores Propios
1 2 3 Autovalor 619.016.047 191.879.109 148.773.442 Diferencia 427.136.938 0.43105667 0.47466180 Proporcin 0.4422 0.1371 0.1063 Acumulada 0.4422 0.5792 0.6855

Como se observa en el cuadro del grupo 1 la vegetacin se puede cuantificar a travs de 3 componentes, ya que la proporcin de varianza acumulada con tres componentes es de 68.5%. El primer componente muestra ponderaciones muy aproximadas excepto por los especimenes Compositae y Weinmannia que muestran aportes notablemente distintos. Grupo 2 El grupo 2 va desde 1.076.744 m.a hasta 1.650.000 m.a de antigedad y un intervalo de altura de 2557-2693 m.s.n.m
GRAMINEA VALLEA SUM PODOCARPUS COMPOSITAE WEINMANNIA POLYLEPIS ALNUS HYPERACEAE MYRICA ERICACEAE RAPANEAE HEDYOSMUN MICONEA Prin1 0.315702 0.308379 0.312550 0.307114 0.102465 0.028673 0.312868 0.313464 0.306151 0.279777 0.277978 0.263782 0.072100 0.285844 Prin2 0.007323 -.046442 0.054497 0.082683 -.574327 0.603897 -.005077 0.061492 0.128342 -.057583 -.060737 -.011711 0.490958 -.158049 Prin3 0.045614 -.121030 0.087869 -.030621 0.302298 -.409757 0.033934 -.031657 0.135215 0.051023 0.022716 -.302672 0.753438 -.180257

Valores Propios
1 2 3 Autovalor Diferencia 973.236.723 848.942.019 124.294.704 0.19025530 105.269.174 0.25719685 Proporcin 0.6952 0.0888 0.0752 Acumulada 0.6952 0.7840 0.8591

33

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Grupo 3 El grupo 3 va desde 1.666.66 m.a hasta 2.582.352 m.a de antigedad y un intervalo de altura de 2700-2881 m.s.n.m Prin1
GRAMINEA VALLEA SUM PODOCARPUS COMPOITAE WEINMANNIA POLYLEPI ALNUS HYPERACEAE MYRICA ERICACEAE RAPANEA HEDYOSMUN MICONEA URTICACEAE MYRTACEAE MELASTOMAT JUGLANS 0.258912 0.255708 0.259305 0.255454 0.046465 0.031526 0.258250 0.258519 0.252243 0.252887 0.250694 0.258069 0.240885 0.253555 0.223633 0.240611 0.240255 0.231161

Prin2
0.005258 -.039873 -.025110 -.064014 0.688860 0.715507 0.014353 0.022522 0.001730 -.043244 -.008868 -.017332 0.004802 -.003768 0.009595 -.050267 -.036662 0.014517

Prin3
0.026635 0.045522 0.030976 0.052017 -.696374 0.663665 0.027198 0.014202 -.088578 -.075952 0.072722 0.015936 0.089285 -.013353 0.042473 -.181940 0.040336 -.058164

Valores Propios
1 2 3 Autovalor Diferencia 146.437.563 133.664.594 12.772.969 0.5465040 0.7307928 0.1936512 Proporcin 0.8135 0.0710 0.0406 Acumulada 0.8135 0.8845 0.9251

Grupo 4 El grupo 4 que es el mas antiguo y va desde 2.594.117 m.a hasta 3.590.322 m.a de antigedad y un intervalo de altura de 2900-3300 m.s.n.m
GRAMINIA VALLEA SUM POD COMP WEIN POLYLEPI ALN HYPER QUER MYRICA ERICA RAPAN Prin1 0.223930 0.230838 0.229386 0.233100 -.008352 -.020154 0.234165 0.228052 0.233728 0.232971 0.218654 0.233044 0.230090 Prin2 -.010840 -.006962 -.000460 -.021695 0.724646 -.684253 0.008726 -.019093 0.009968 0.001459 0.023106 0.025581 -.026761 Prin3 0.004702 -.055572 -.008949 -.010904 0.673241 0.723241 0.033552 0.014209 0.002986 -.031860 0.001664 0.009465 -.039665

34

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

0.232627 0.014868 HEDY 0.233632 -.020891 MICON 0.226080 -.019157 CECROP 0.228506 -.030165 URT 0.223313 0.038344 DOD 0.231677 -.002418 MYRT 0.229977 -.007475 MELAST 0.223326 0.011671 JUGLANS *Continuacin tabla del grupo 4

-.004529 0.009518 -.008812 -.038783 0.100357 0.026425 0.041143 0.046762

Valores Propios
1 2 3 Autovalor Diferencia 180.615.659 169.185.618 11.430.041 0.2704089 0.8725952 0.5277402 Proporcin 0.8601 0.0544 0.0416 Acumulada 0.8601 0.9145 0.9561

Esto puede deberse a la alta correlacin entre algunos de los gneros de rboles mostrando fuertes asociaciones con algunas familias de plantas y cambios de sucesionales en la estructura de la cobertura a travs del tiempo mostrando evidencia de la existencia de mas de un tipo de bosque. Posteriormente se realizo una regresin polinmica grado 4 para observar el patrn de distribucin en el tiempo para cada uno de los especimenes biolgicos. Se tom como variable independiente la edad en aos y como variable dependiente (respuesta) cada espcimen vegetal. Aqu no se estiman parmetros ni se hace inferencia. Regresin Polinmica Grado 4 Para Especimenes Biolgicos. Grupo 1: Comprende las primeras 68 observaciones que datan desde los 42016aos hasta 1055813 millones de aos. As mismo el intervalo de la altura es de 2075 a 2550 m.s.n.m.
Plot of Fitted Model
24 20

ALNUS

16 12 8 4 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 3,10782 percent

35

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


25

COMPOSITAE

20 15 10 5 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 0,0 percent


Plot of Fitted Model
16

ERICACEAE

12 8 4 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 2,78617 percent


Plot of Fitted Model
35

GRAMINEA

30 25 20 15 10 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 98,7187 percent


Plot of Fitted Model
8

HEDYOSMUN

6 4 2 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 54,1801 percent


Plot of Fitted Model
20

HYPERACEAE

16 12 8 4 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 0,866141 percent

36

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


1 0,8 0,6 0,4 0,2 0 0 20 40 60 80 100 120

JUGLANS

Edad

R-squared (adjusted for d.f.) = 86,6729 percent


Plot of Fitted Model
5 4 3 2 1 0 0 20 40 60 80 100 120

MICONEA

Edad

R-squared (adjusted for d.f.) = 6,98043 percent


Plot of Fitted Model
2,1 1,8

MYRICA

1,5 1,2 0,9 0,6 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 94,3575 percent


Plot of Fitted Model
0,5 0,4 0,3 0,2 0,1 0 0 20 40 60 80 100 120

MYRSINE

Edad

R-squared (adjusted for d.f.) = 80,6978 percent


Plot of Fitted Model
5

PODOCARPUS

4 3 2 1 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 97,8904 percent

37

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


4

POLYLEPIS

3 2 1 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 97,9568 percent


Plot of Fitted Model
11 9

SUM

7 5 3 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 98,1026 percent

Plot of Fitted Model


40

WEINMANNIA

30 20 10 0 0 20 40 60 80 100 120

Edad

R-squared (adjusted for d.f.) = 0,0 percent

Grupo 2 Comprende las primeras 69-107 observaciones que datan desde los 1.076.744 millones de aos hasta 1.650.000 millones de aos. Asi mismo el intervalo de la altura es de 2557 a 2293 m.s.n.m.
Plot of Fitted Model
5,6 5,1

ALNUS

4,6 4,1 3,6 3,1 2,6 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 96,0817 percent

38

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


18

COMPOSITAE

15 12 9 6 3 0 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 9,34736 percent


Plot of Fitted Model
4,1

ERICACEAE

3,9 3,7 3,5 3,3 3,1 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 77,0356 percent


Plot of Fitted Model
41

GRAMINEA

40 39 38 37 36 35 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 97,5534 percent


Plot of Fitted Model
1,8

HEDYOSMUN

1,75 1,7 1,65 1,6 1,55 1,5 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 69,3429 percent


Plot of Fitted Model
4,2

HYPERACEAE

4 3,8 3,6 3,4 3,2 3 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 92,0469 percent

39

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


1,5 1,4 1,3 1,2 1,1 1 1 1,2 1,4 1,6 1,8

MICONEA

Edad

R-squared (adjusted for d.f.) = 87,903 percent


Plot of Fitted Model
2,1 2 1,9 1,8 1,7 1,6 1 1,2 1,4 1,6 1,8

MYRICA

Edad

R-squared (adjusted for d.f.) = 85,0214 percent


Plot of Fitted Model
6

PODOCARPUS

5,6 5,2 4,8 4,4 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 90,4282 percent


Plot of Fitted Model
5,9

POLYLEPIS

5,5 5,1 4,7 4,3 3,9 3,5 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 97,4171 percent


Plot of Fitted Model
15 14

SUM

13 12 11 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 96,6314 percent

40

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


1,8 1,5

VALLEA

1,2 0,9 0,6 0,3 0 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 96,3257 percent


Plot of Fitted Model
24

WEINMANNIA

20 16 12 8 4 0 1 1,2 1,4 1,6 1,8

Edad

R-squared (adjusted for d.f.) = 0,0 percent

Grupo 3 Comprende las primeras 107-160 observaciones que datan desde los 1.650.000 millones de aos hasta 2.582.352 millones de aos. Asi mismo el intervalo de la altura es de 2293 a 2881 m.s.n.m.
Plot of Fitted Model
9,5 8,5

ALNUS

7,5 6,5 5,5 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 97,4418 percent


Plot of Fitted Model
80

COMPOSITAE

60 40 20 0 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 0,0 percent

41

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


5,8

ERICACEAE

5,5 5,2 4,9 4,6 4,3 4 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 93,0503 percent


Plot of Fitted Model
48

GRAMINEA

46 44 42 40 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 98,0635 percent


Plot of Fitted Model
6,4

HYPERACEAE

6 5,6 5,2 4,8 4,4 4 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 94,9298 percent


Plot of Fitted Model
0,5 0,4 0,3 0,2 0,1 0 1,6 1,8 2 2,2 2,4 2,6

JUGLANS

Edad

R-squared (adjusted for d.f.) = 86,4542 percent


Plot of Fitted Model
1

MELASTOMAT

0,8 0,6 0,4 0,2 0 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 90,5294 percent

42

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


2,1 2

MICONEA

1,9 1,8 1,7 1,6 1,5 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 92,5339 percent


Plot of Fitted Model
3,5 3,2

MYRICA

2,9 2,6 2,3 2 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 93,2755 percent


Plot of Fitted Model
3,5 3,1

MYRSINE

2,7 2,3 1,9 1,5 1,1 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 97,826 percent


Plot of Fitted Model
1

MYRTACEAE

0,8 0,6 0,4 0,2 0 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 89,4246 percent

43

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


10

PODOCARPUS

9 8 7 6 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 97,7712 percent


Plot of Fitted Model
8,8 8,3 7,8 7,3 6,8 6,3 5,8 1,6 1,8 2 2,2 2,4 2,6

POLYLEPIS

Edad

R-squared (adjusted for d.f.) = 98,4053 percent


Plot of Fitted Model
19 18

SUM

17 16 15 14 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 99,0571 percent


Plot of Fitted Model
1

URTICACEAE

0,8 0,6 0,4 0,2 0 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 89,1501 percent


Plot of Fitted Model
5,7 4,7 3,7 2,7 1,7 1,6 1,8 2 2,2 2,4 2,6

VALLEA

Edad

R-squared (adjusted for d.f.) = 98,2001 percent

44

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


24

WEINMANNIA

20 16 12 8 4 0 1,6 1,8 2 2,2 2,4 2,6

Edad

R-squared (adjusted for d.f.) = 0,0 percent

Grupo 4 Comprende las ltimas observaciones desde 161-232 que datan desde los 2.594.117 millones de aos hasta 3.590.322 millones de aos. As mismo el intervalo de la altura es de 2900 a 3300 m.s.n.m.

R-squared (adjusted for d.f.) = 98,5744 percent


Plot of Fitted Model
10 8 6 4 2 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

CECROPIA

Edad

R-squared (adjusted for d.f.) = 93,9934 percent


Plot of Fitted Model
20

COMPOSITAE

16 12 8 4 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 0,0 percent

45

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


8

DODONEA

6 4 2 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 93,2081 percent


Plot of Fitted Model
20

ERICACEAE

17 14 11 8 5 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 95,9779 percent


Plot of Fitted Model
77

GRAMINEA

72 67 62 57 52 47 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 99,3961 percent


Plot of Fitted Model
12

HEDYOSMUN

10 8 6 4 2 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 94,4303 percent


Plot of Fitted Model
25

HYPERACEAE

20 15 10 5 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 96,8345 percent

46

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


2,4 2

JUGLANS

1,6 1,2 0,8 0,4 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 90,1246 percent


Plot of Fitted Model
4

MELASTOMAT

3 2 1 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 97,271 percent

R-squared (adjusted for d.f.) = 93,8659 percent


Plot of Fitted Model
30 25

MYRICA

20 15 10 5 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 83,4481 percent


Plot of Fitted Model
20 16 12 8 4 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

MYRSINE

Edad

R-squared (adjusted for d.f.) = 87,9266 percent

47

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


6

MYRTACEAE

5 4 3 2 1 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 96,8615 percent


Plot of Fitted Model
39

PODOCARPUS

34 29 24 19 14 9 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 97,9964 percent


Plot of Fitted Model
40

POLYLEPIS

30 20 10 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 97,6561 percent


Plot of Fitted Model
30 25 20 15 10 5 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

QUERQUS

Edad

R-squared (adjusted for d.f.) = 96,0802 percent


Plot of Fitted Model
42 38

SUM

34 30 26 22 18 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 92,747 percent

48

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Plot of Fitted Model


8

URTICACEAE

6 4 2 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 85,1803 percent


Plot of Fitted Model
80

VALLEA

60 40 20 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 91,562 percent


Plot of Fitted Model
40

WEINMANNIA

30 20 10 0 2,5 2,7 2,9 3,1 3,3 3,5 3,7

Edad

R-squared (adjusted for d.f.) = 0, 0 percent

De estas graficas de regresiones polinmicas grado 4 se puede observar el patrn o tendencia del espcimen a travs del tiempo. Vemos claramente que las que tienen un comportamiento bien definido en el tiempo tienen una alta correlacin y generalmente estn en decrecimiento. Lo que implica que estas especies se han ido contrayendo en el tiempo debido seguramente a que los bosques han crecido paulatinamente. De otra parte se observa que algunas presentan topes como mnimos y mximos en donde se ve que en algn momento crecieron y despus decrecieron. Las que tienen un coeficiente de correlacin bajo generalmente se han encontrado en baja proporcin pero siempre se han mantenido en el tiempo, seguramente como especies que se asocian con las que mas predominan. Matriz de Correlacin Se realizo la matriz de correlaciones para los cuatro grupos para observar que especimenes presentaban altas correlaciones y que asociaciones presentaban con los dems especimenes. De otra parte analizar las correlaciones negativas que indicaran el aumento de una especie y la disminucin de otra en un intervalo de tiempo particular.

49

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Discusin Las relaciones de dominancia y desaparicin de los especimenes en su intervalo en millones de aos o miles de aos y su temperatura promedio explican la correlacin encontrada entre las variables del polen: De 3.2 a 2.7 Ma: Predomina Podocarpus, se presenta un bosque de vallea- Miconia, como tambin Hypericum-Weinmannia. En pramo dominan las Gramineas y Compositae. Como genero pionero del altiplano encontramos a Dodonea. El clima es caliente y oscila entre 11.5-16.5 C. De 2.7- 2.2 Ma Temp 10.5-112.5 y 8/.5 -11.5C, Desciende la T Bosque rico en Podocarpus Ausencia de Weinmannia, dominancia de Hedyosmun Asociaciones entre Hedyosmun, Weinmannia y Miconia, dominando un bosque de vallea- Miconia (Myrsine y Daphnopsis eran elementos asociados) := sum. De 2.2- 1.42 Ma Podocarpus pierde dominancia Bosques de Hedyosmun, Weinmannia y vallea- Miconia son importantes. Polylepis reemplaza a Hypericum, Weinmannia a Hedyosmun y Juglans aparece por primera vez. De 1.42-1 Ma Temperaturas fras Weinmannia desapareci. Hedyosmun, Myrsine y Ericaceae tienen una contribucin importante. Myrica contribuye sustancialmente y Quercus aparece por primera vez. De 1 Ma-0.85 Ma Glacial-interglacial del Cuaternario Medio Superior, Desciende la temperatura hasta 4.8C Domina un pramo de Gramineas, Myrica se reduce. De 0.85-0.73 Ma Periodo interglacial claro dividido por un marcado glacial, Tem prom 13-6C. Podocarpus en la zona baja del bosque andino, Weinmannia - Hedyosmun contribuyen en la misma proporcin, vallea- Miconia estn en baja frecuencia. Hay presencia de Polylepis, Myrica y Compositae (frailejn). De 569-350mil aos Temperatura promedio es fria de 5 -9.5C Predominancia del paramo con Graminea y Compositae Hay presencia de Vallea- Miconia y Weinmannia Hedyosmun Polylepis, Hypericum y Compositae en el subparamo

50

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

De 350-180mil aos Tem prom aumenta 6-10 C y de 10-12C Quercus importante en el bosque andino Weinmannia Hedyosmun dominan, Vallea- Miconia aumentan y desplazan a Weinmannia, bosque rico en Podocarpus Alnus, Quercus y Myrica son abundantes en bosques pantanosos. De 180-24 mil aos Tem prom caliente de 6-12 C Presencia abundante de Quercus, Myrica se reduce, Polylepis frecunte en paramo, Myrsine persite sustancialmente (< medida), Weinmannia Hedyosmun estan presentes al igual que Vallea- Miconia Como es posible apreciar, aquellas especies que dominan y se mantienen a travs de los distintos periodos son aquellas que presentan correlaciones altas dentro del modelo sucesional de la cobertura vegetal.

Bibliografa 1. Van Der Hammen, T. 1988. Plan ambiental de la Cuenca Alta del Ro Bogot. CAR. Bogot. 2. Van Der Hammen, T. 1989. Plioceno y Cuaternario del Altiplano de Bogot y Alrededores. Anlisis Geogrficos 24.Instituto Geogrfico Agustn Codazzi, Subdireccin de Geografa. 3. Mannion A.M, 1999. Natural Enviromental Chance. Routledge Introductions to Environment, London and New York. 4. Bush M., Silman M., Urrego Dunia, 48000 years of climate and forest chance in a biodiversity hot spot. Science vol 303 feb-2004.

Burgos Salcedo, Javier Daro. Bilogo. Maestra en matemticas. Profesor asociado Universidad Nacional de Colombia, Instituto de estudios ambientales. Ph.D. en Matemticas aplicada. 40 publicaciones. Lneas de inters: modelamiento de sistemas y procesos biolgicos y ambientales y Biologa Computacional.: jdburgoss@unal.edu.c

51

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Mathematical Model for Environmental Prioritizing Using Hyperbolic Probability Distributions and Power Laws
Burgos, Javier D.1 *; Prez, Julia A. 1; Mrquez, German *jdariob@udistrital.edu.co 1Facultad Del Medio Ambiente y Recursos Naturales Universidad Distrital Instituto de Estudios Ambientales IDEAUniversidad Nacional de Colombia Colombia

Abstract Modern environmental management programs require, as an initial step, the application of some procedures in order to prioritize among all the elements of the natural system considered. Several methods are currently employed, like those based on the concepts of Hot spots, Mega diversity areas, Maximum Priority Areas, Strategical Ecosystems and Principal Ecological Structure. All these methods posses in common the idea that, of the number of components of an ecosystem, a few of them play a more important role than the others. But it is important to note that all these methods are commonly supported on a strong subjectivity component, which means that the final decision is taken by an expert of a group of highly experienced people. Unfortunately, given the increasingly complexity of environmental networks, to prioritize is also a very difficult task for policy makers, administrators and environmental scientists. We present here a concise methodological approach to environmental prioritizing based on the principles of energy distribution in the natural system following hyperbolic or power laws i.e. few components in take a lot of energy and most of them in tale very few energy. Using this ecological fact, we develop in the present work a methodological mathematical framework based on the Einstein-Bose mechanical statistics and the Gibrats law, which lead to the developing of a practical guide to prioritizing in environmental sciences. Our method comprises 1) Elaboration of a random vector of field collected data, 2) Hyperbolic test: bilogarithmic plots using range as independent variable. 3) Estimation of the fractal dimension for each component of the system and, 4) Construction of a decision matrix whose entries are the fractal dimensions, for those variables with hyperbolic probability distributions, and well known ecological, social and economical indices for variables with any other probability distribution. Finally, some applications were developed regarding world primary productivity and hydroelectricity generation in Colombia. Keywords: Prioritizing, Power Laws, Environmental management, fractals.

52

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Introduction There is a growing concern related with the necessity of the development of criteria to prioritize environmental investments. For instance, The World Bank in collaboration with WWF, proposed a method for the evaluation of ecosystems state, in order to identify priorities in conservation investments [1]. A group of Stanford University developed a method to identify extinction crises, [2] in a line much related with ideas like hot spots [3]. or Mega diversity Countries [4], intended to decide where to invest the rather scarce resources devoted to conservation and investigation, in these cases, of biodiversity and ecosystem protection. This paper deals with one approach to identify priorities in environmental politics in Colombia, one of the Mega diversity countries, developed during an assessment to the Ministry to the Environment. The main idea was to find a method to demonstrate that some ecosystems play a strategically role in supporting some environmental processes, for instance, water supply for hydroelectricity generation. The term strategical is used in the sense of vital for the continuity of the process, a condition that could be connected to the relative weight of the function of each water supplying system (measured as water or/and energy production, for instance) against the summatory of the weights. The hypothesis is that, if some of the elements would have a strong participation percentage compared with the total one, these elements could be considered strategical and deserve some special consideration when deciding what to do and where to work [5]. Graphically, it was represented in linear bilogarithnic plots with slopes reflecting the heterogeneity in the distribution of weights. The results were very clear in showing that, in the case of Colombian watersheds, a very few of them support most of the population supply of hydroelectricity generation. Further studies revealed that this kind of distributions, named as hyperbolic or scaling distributions, are extremely common in nature and have been subject of extensive study and some applications; they are supposed to obey power laws: an array of empirical mathematical laws that describe these distributions in many different systems, but are (still) not able to explain them [6]. Anyway, these distributions are so common that it is difficult to find exceptions and must be considered as an attribute of complex systems. Hopefully, recognition of scaling distributions will be used to identify the critical elements in the studied systems, in our case environmental and ecological systems, so that decisions and investments could have a better cost: benefit relationship. In Colombia it has been possible to identify some ecosystems that are playing important roles, and also, to demonstrate that adopted and accepted priorities not always considered its existence or planned its environmental management in accordance with its real significance for social welfare, economical development and environmental balances. Problem Formulation Prioritizing is a need in environmental decision making in order to improve, for instance, allocation of usually scarce financial resources. This paper explores the application to this aim, of rather simple method based on mathematical power laws. These establish that in most systems, including ecological and environmental ones, a

53

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

few of the composing elements play a major role, both structurally or functionally, while many others are by much less significant. A well-known example concerns with biomass distribution in biological distribution: a few species are abundant and a lot of them are scarce or rare. Such heterogeneous or asymmetric distributions are extremely common in biological, chemical, social and even physical systems. The basic assumption of this paper is the proposal that, if you are able to identify such main elements, you will have a valuable criterion for decision making, for instance, which ecosystems must be preserved in order to guarantee water supply (conservation and biodiversity among others) or to be controlled to prevent pollution with a better cost: benefit relationship. The identification procedure consists in the valuation of the relative weight (importance value) of each element in the system against the total of the weights; according to power laws, approximately 20% of the elements must carry on with approximately 80% of structures or functions; such 20% responsible elements are supposed to be critical. Given the ubiquity of power laws in nature, we make extensive use of this notion to develop a methodological guide for environmental prioritizing. Conceptual and Mathematical Frameworks Energy Distribution In Ecology Energy distribution among different components of an ecosystem behaves following the Gibrats law [7], which states that the occurrence of an event is proportional to the previous occurrence number. Thus, our principal argument is that environmental prioritizing must be based on the use of hyperbolic probability distributions. In the present paper we employ the Zipfs law as a fundamental tool for prioritizing. Starting from how the energy can be distributed among natural systems, we develop our prioritizing method considering the multiplicity principle for energy distribution. Multiplicity for Energy Distribution and the Einstein-Bose Statistics. The evaluation of the number of ways you can distribute energy among a collection of particles or systems is important in physical calculations since any collection will tend toward the configuration of maximum multiplicity (maximum entropy). The multiplicity W for q units of energy among N equally probable states is given by the expression:
q + N 1 (q + N 1)! = ( N , q ) = q q!(N 1)!

(1)

This is sometimes called the number of microstates for the system. Daniel Schroeder [8] has a succinct way to demonstrate the above relationship. Suppose we use a dot to represent each of the q units of energy and a vertical line to denote the boundaries between the N states. An example of a distribution of q=8 units of energy in N=4 states would be
III

54

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

This can be used as distribution of two types of elements, energy units and boundaries of energy states. There would always be q units of energy and N-1 state boundaries for a total of q + N 1 symbols. So the number of ways to distribute q units of energy would just be the combination:
q + N 1

q + N 1 (q + N 1)! = Cq = q!(q + N 1)! q

(2)

which is the number of ways you can pick q units of energy (the permutation) divided by the number of ways to rearrange the q units of energy without changing the number in each state. Zipfs law Power laws (a real number raised to a power) are closely related with probability density functions that are statistically self-similar, that is, in different increments of time the statistical characteristics remain the same [9, 10]. Most studies and applications of power laws concern with diverse disciplines like physics, meteorology, economy and linguistics [11]. Actually, several biological systems are being characterized by welldefined power laws [12, 13, 14, 15]. in a manner reminiscent of other nonlinear, spatially extended dynamical systems in the physical sciences; actually, such evident power law distributions of community species number, as well as allometric scaling of production and life-history variation in vascular plants, are currently studied [14,13]. In practical terms, the action of power laws governing natural phenomena is suggested by the presence of a few components represented at high frequency and most of them with low frequency. In the present paper we use the Zipfs law, which is revealing in linguistic and social dynamics [16]. It is important to note that Zipfs analysis has been successfully extended to other systems, such as the distribution of city sizes [11], DNA base pair sequences [17] and the structure of the immune system [18]. In conventional Zipfs analysis one calculates the normalized occurrence (W) of each word in a given text, and assign a rank (R) to each of them i.e. with R=1 being the most frequent one, R=2 the second most frequent and so on. To perform Zipfs analysis here, we study the functional form between the weight or occurrence (W) of a given ecosystem type, expressed in terms of its percent contribution regarding the environmental variables mentioned above versus its respective rank (R). Following Zipf, the relationship between W and R takes the form:
W=1/R (3)

Mandelbrot (1982) trying to obtain this empirical law from theoretical considerations established the equation:
W= F (R+V) B (4)

Which after logarithmic transformation takes the form:


Log W= log F (-B) log (R+V) (5)

55

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

This last equation constitutes a linear relationship between the log of the weight of the ecosystems variables and the log of its corresponding rank. F is a secondary cofactor which we wont take into account. V is defined as V = 1/N-1, where N corresponds to the number of ecosystem types employed in the study. B is a scaling exponent which rules the distribution of the ecosystem types, and express the heterogeneity of the weights or occurrences. Finally, if the given statistical distribution is fractal i.e. ruled by a power law, the data fits well over a bilogarithmic regression curve with high determination coefficient (r 2). Results Einstein-Bose Mechanical Statistics and Derivation of the Zipfs Law The Zipfs law can be derived from theoretical considerations regarding the energy distribution among the natural systems which follows the Gibrats law, employing those principles of Einstein-Bose mechanical statistics [19, 20]: Let us suppose a population of N species y M genders; moreover, let Li the specie belonging to the i-gender such that:
Li 1 , i = 1,2,.....M y

L
1

=N

(6)

The composition of the population can be described in terms of the distribution of M given N, and a probability distribution for: L = (L1 ,....., LM ) , given M and N. We study the probability distribution for the number of species in each gender, taking into account born, death, immigrations and emigrations stochastic processes [21]. This supposition enables the use of Einstein-Bose statistics, given that the occurrence of species in each gender is equiprobability. Given that Einstein-Bose statistics satisfies the Gibrats law omnipresent in the natural systems, we have:
N 1 ; E N 1L M , N = M 1 PN {L M } = i M 1
1

(7)

and

2 {N 1Li M , N } = (M 1)[M 2 (M + 1)]

(8)

are the principal statistical describers. Lets G(s) the set of genders with exactly s species. Given that the total number of species is N and the M-G(s) genders must have at least one specie, it follows that for s>1: 1 0 G ( s ) ( N M )(s 1)

0 G (1) M and then G(s) = 0 a menos que 1 s S N M + 1 .

Moreover, we have:

G(s) = M
s =1

sG(s) = N
s =1

(10)

for given M and N .

56

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Following Einstein-Bose mechanical statistics, we have that the distribution for G = (G (1),.....G ( S ) ) is
S Pr{G M , N } = M ! G ( s )! s =1
1

N 1 M 1

(11)

Given that G come forth from permutations of elements of a vector L all of them with exactly G(s) with s components, and that there are S M ! G ( s )! permutations, which lead to different L vectors with such components. s =1 Now, we will consider the limit distribution of M-1G(s) when N tends to infinity.
Limit Distribution Of M -1G(S)
1

The principal goal of this part is the derivation of a limit Basic theorem which characterize the distribution of M-1G(s) when N, with Pr N 1M x N converging to an hyperbolic distribution F(x).

let Ij(s) = 1 if the gender j posses exactly s species;

0 otherwise.
M

Thus: G ( s ) = I j ( s )
j =1

(12)
1

Following that:
N 1 M 1E{G ( s ) M , N } = M 1 N s 1 M 2
(13)

and
(14) E{G (s)G (t )

Where (s t ) is 1 or 0 if s=t or st respectively.

N 1 N s t 1 M , N } = M (M 1) + (s t )E{G ( s ) M , N } M 1 M 3

When M and N tends to infinity with N-1M tending to , it is possible to obtain: Lim E {M 1G ( s ) M , N } = (1 ) s 1
NM

(15)

and
N ,M

Lim M Var {G ( s )
1

Var M 1G ( s ) M , N 0 it follows that: M G ( s ) (1 )


1

M , N } = (1 ) { (1 ) [(s 1) (1 )]}Given 1
s 1 s2 2

(16)

that:

s 1

This result can be interpreted as follows: If the prior distribution of N-1M given N, is degenerate and converges to a distribution concentrated on , then M-1G(s) converges to a probability distribution (1-)s-1, which is a mass function of a geometric distribution in accordance with the Einstein-Bose mechanical statistics.

57

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

The previous development can be condensed in the following theorem, named Basic theorem of limit distribution of M-1G(s), when M possess a predefined probability distribution.

Theorem FN ( x) = Pr N 1M x N Let

(17)

a distribution function F(x) with F(0)=0 then S n ( x) Pr M 1G ( s ) x N converges towards a distribution function S ( x) Pr{hs ( ) x} , (19)

(18)

where is a random variable with distribution F, and hs() equals to (1-)s-1.

The Proof of this theorem is presented elsewhere [18]. Our mathematical framework justifies the use of hyperbolic laws as tools for environmental prioritizing, given that the distribution of energy among ecosystems naturally leads to hyperbolic distribution functions if we take into consideration the Gibrats law and the principles of mechanical statistics.
Prioritizing Algorithm

To implement, in a practical way, our prioritizing model we develop the following algorithm [22]: P1. Elaboration of a stochastic matrix whose entries correspond to normalized values ( Wx jp ). i.e. Wx jp in [0,1], of those variables considered as critical when the environmental system is studied. Variables should be choose taken into account if the priorities are based on objectives or criteria. P2. Zipfs analysis: as was exposed on 2.2.3. Fractal dimensions (D) are calculated for each component of the system with data obtained for all studied variables.
0 w x P3. Application of the characteristic function as follows: f ( x ) =
jp

< 0 . 20

D w x jp 0 . 20

This function is based in the well-known 20/80 rule in mathematical economics, but it is important to note that this threshold value can be changed by the researcher taken into account the range of values of Wx jp present in the environmental system considered. P4. Decision matrix: this matrix is constructed employing as entries the fractal dimensions once the characteristic functions has been applied. Those components which posses a strategic character are obtained by the sum of their fractal dimensions for each variable considered. It is important to note that for those variables with no hyperbolic behavior, the entries in the decision matrix could correspond to currently used biophysical, ecological, environmental, economical and demographic indices among others.

58

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Real Applications Net Primary Productivity and Biomass of the Biosphere

Data concerning Net Primary Production (NPP) and Biomass of the biosphere were taken from Whittaker and [23]. Figure 1 shows the Zipf s (bilogarithmic) plot of NPP versus class rank, this result suggests that NPP in the biosphere is ruled by the following power law expressed in linear form: LogWNPP=2.16196 1.81413log(RNPP+V)
(20)

Or expressed in potential form: WNPP= 145.2 (RNPP+V)-1.81413 (21) Since the P-value in the ANOVA analysis is less than 0.01, there is a statistically significant relationship between WNPP and RNPP at 99% confidence level. This equation enables us to determine that four (21%) ecosystem types, tropical rain forests, open oceans, savannas and tropical seasonal forests support more than 60% of the NPP in the biosphere, whereas 15 (79%) ecosystem types support the remaining 40% of the global NPP.
1.8 1.3 0.8

PPN

0.3 -0.2 -0.7 -1.2 0 0.3 0.6 0.9 1.2 1.5

Fig. 1. Bilogarithmic Plot For Biomass vs. Rank

Rank

Colombian Forests Distribution and Hydroelectricity Generation

In Colombia, one of the mega diversity countries, we considered the distribution of forest covertures in all municipalities, finding that 20/1050 municipalities concentrate most of the forest areas, this disparity is clearly indicated by the numerical value of the scalarity exponent B = 2.8602. On the other hand, statistical fractal behavior was also observed in the water supply and hydroelectricity generation in Colombia. Figure 2 shows a significant relationship between log Wcapacity and log Rcapacity which can be expressed mathematically as follows:

59

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Capacity (MW)

3 2 1 0 0 0.4 0.8 1.2 1.6

Rank
Fig. 2. Bilogarithmic Plot For Capacity vs. Rank

Wcapacity = 8140.6 3 (Rcapacity + Vcapacity )- 1.6639 (24) Thus, in Colombia 30% of the hydro electrical systems provide 70% of the total energetic capacity.
Conclusions

Power law expressions (heterogeneities) are ubiquitous in nature, and so are in ecological and environmental systems. The proposal of this paper is that the recognition of such condition could be used as an analytical tool in environmental studies and decision making. Supporting the proposal are some examples employed to illustrate concepts and methodologies to identify and describe heterogeneities. Let us consider some possible conclusions of such analyses, both reinforcing or questioning the utility of power laws in environmental analysis. The first example (figure 1) shows the extreme dependence of the biosphere on the productivity of a few ecosystem types. What could be the implications of this fact? The authors only have some idea, for instance, being the ocean the main producer and considering that (still) it is not much environmentally disturbed, and will not be easily disturbed, biosphere productivity has a heavy stabilizing factor in favor and is not in jeopardy; a corollary is that a factor menacing ocean productivity (for instance ozone depletion) would be extremely dangerous and of significant priority. Fortunately, as Hansen and Sato (2001) [24] has pointed out, a remarkable deceleration in the growth rate of Greenhouse Gases climate forcing occurred in the past 20 years. The slowdown was caused mainly by phase-out of several chlorofluorocarbons, hydro chlorofluorocarbons, chlorocarbons and bromocarbons, usually abbreviated together as CFCs, is resulting in stratospheric O3 recovery. An obvious conclusion is about the importance of rain forests, reinforcing the need for its protection. A not so obvious one, illustrating the potentialities of our proposal, relates with tropical seasonal forests, not as well known nor deserving as much attention as rain ones, but endangered and claiming for some prioritization in world environmental politics. What could be concluded about savannas, the last of the big contributors to productivity, or about other ecosystems? The reader would decide; we will consider other examples. The area and productivity distribution in Colombian ecosystem types also reflects acting power laws, both in ancient natural conditions or after human

60

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

transformation. From these distributions is also possible to derive some conclusions and decisions; for instance, to sustain primary production it is necessary to preserve our Amazonian forests. Even so, some inversed conclusions are also reasonable, let us say it is urgent to preserve relicts of tropical dry forests or Caribbean savannas that are near to extinction; from the point of view of flora and fauna diversity the conclusion is similar as long as preserving rain forests will not preserve dry forests or other ecosystem biota. This conclusion could be considered an exception, not to power laws ( as most of the species are in rain forests and a few other ecosystems) but to its plain application, because biodiversity is essential to the welfare of people in all countries and therefore worthy of protection regardless of how it ranks globally [2]. Anyway, power laws are good analytical tools; this is reinforced through analysis of endemism distributions around the world. Again, a few countries concentrate most of the endemic mammals, according to power laws, but what must be the decision? In order to preserve as most endemic species as possible the allocation of resources in these few countries would be the better investment; but, this must not mean the abandonment of other species even if this is what is really happening, with the emphasis in rain forests or in endemic and rare species. In Colombia emphasis is made on rain forests, Paramus (highland Andean ecosystems) as well as in some endangered species in detriment of other ecosystems like Andean and dry forests even more endangered. It is interesting to consider, as mentioned at introduction, that endemism analysis and, in general, the tool proposed by Sisks et. al (1994) to prioritize conservation efforts, makes use of potential laws, even not being aware of that. So, they order countries according to biodiversity, endemism, forest lost or population pressure indices in an hierarchical way and then select the top 25% of any index to be considered critical: selection of a 25% cutoff is arbitrary, but one that we feel is appropriate, they say. Without knowing, they are selecting the few countries that concentrate more than 80% of endemism and a significant part of species richness, as well as those countries where most biodiversity faces destruction. The further selection, as critical, of the countries falling within the top quartile for either biodiversity or endemism and either forest lost or population pressure, is also implicitly based on power laws and focus, quite adequately, on the top rank. Consideration from power laws reinforces, we believe, the utility of this already very valuable tool. A further consideration deals with human population in Colombia, this is concentrated in few cities, less than 0.01% of municipalities (10 cities) concentrate more than 30% of the population of the country. These 10 cities are supplied by 500 watersheds or less, a minimal fraction of the 740.000 watersheds in all the country. Both cases are extreme expressions of power laws reflecting a risky dependence and fragility on the water supply system, and demonstrate the strategical role of a few watersheds whose conservation priority is undeniable. Quite similar is the case of hydroelectricity generation basins. Analysis is based in rather old, but plenty useful, information [5]. As expected, most hydroelectricity depends on few basins: 27 hydroelectricity production systems supplied by less than 1% of watersheds, provide 80% of hydroelectricity. Ten, or something like 30% of these systems and its watersheds, provide 89% of hydroelectric generation or 69% of total electricity generation. These, and its basins, are supposed to be most strategical.

61

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Power laws area valuable analytical tools in environmental management but are still needing further study and application in order to develop all its potentialities. Hopefully, this paper will stimulate it.
References

[1] Dinnerstein D., Wikramanaye E.D. Beyond hotspots: how to prioritize investments to conserve biodiversity in the Indo-Pacific region. Conserv. Biol. 7. 1993. pp. 53-66. [2] SISKS T.D., LAUNER A.E., SWISKY K.R., EHRLICH P.R. Identifying extinction threats. Global analysis of the distribution of biodiversity and the expansion of the human enterprise. BioScience 44. 1994. pp. 592-604. [3] Myers N. The biodiversity challenge: expanded hot-spot analysis. Environmentalist 10. 1990. pp. 243-256. [4] Mittermeier R.A. Primate diversity and the tropical forest: case studies from Brazil and Madagascar and the importance of the megadiversity countries. Biodiversity (E.O. Wilson ed). National Academic Press, Washington D.C. 1990. [5] Mrquez G. Ecosistemas como factor de bienestar y desarrollo. Ensayos de Economa (Universidad Nacional de Antioquia) 7. 1997. pp.113-141. [6] Gell-Mann M. El quark y el jaguar. Tusquets editores. Barcelona. 1996 [7] Margalef, R. Limnologa. Ed. Omega, S.A. Barcelona, Espaa. 1983. [8] Wesley, A. An introduction to Thermal Physics. 2000. [9] Schroeder M. Fractals, Chaos, Power Laws. Minutes from and Infinite Paradise. W.H. Freeman, New York. 1991 [10] Williams G.P. Chaos Theory Tamed. Taylor & Francis, London. 1997. [11] Mandelbrot B. The Fractal Geometry of Nature. Freeman. San Francisco. 1982. [12] BURGOS J.D. Fractal representation of the immune B cell repertoire. BioSystems 39. 1996. pp. 19-24. [13] Enquist B.J., West G.B., Charnov E.L., Brown J.H. Allometric scaling of production and life-history variation in vascular plants. Nature 401. 1999. pp 907-911. [14] Enquist B.J., Brown J.H., West G.B. Allometric scaling of plant energetics and population density. Nature 395. 1998. pp. 163-165. [15] Benavar J.R., Maritan A., Rinaldo A. Size and form in efficient transportation networks. Nature 399: 1999. pp 130-132. [16] Zipf, G. Human behavior and the principle of least-effort. AddisonWesley,Cambridge. 1949. [17] Czirok A., Mantegna R.N., Havlin S., Stanley H.E. Correlations in binary sequences and a generalized Zipf analysis. Phys. Rev. E. 52. 1995. pp 446-452. [18] Burgos J.D., Moreno P.A. Zipf scaling behavior in the immune system. BioSystems 39. 1996. pp 227-232.

62

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

[19] Hill, B.M. Zipf`s Law and Prior Distributions for the Composition of a Population. Journal of the American Statistical Association. Vol. 65, N331. 1970. pp. 1220-1232. [20] Ijiri, Y., Simon,H. Some Distributions Associated with Bose Einstein Statistics. Proc. Nat. Acad. Sci. USA. Vol. 72, N 5. 1975.pp. 1654-1657. [21] Simon, H. On a Class of Skew Distribution Functions. Biometrika 42.1955. pp425-440. [22] Burgos, JD., Perez, JA. A Mathematical Methods For Environmental Prioritizing. (In Spanish). Universidad Distrital. Bogot. 2005. [23] Lieth H.H ., Whittaker R.H. Primary Productivity of the Biosphere. SpringerVerlag. New York. 1975
[24] Hansen J.E., Sato M. Trends of measured climate forcing agents. PNAS 98. 2001. pp.14778-14783.

63

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Toxicogenmica Toxicogenomics
Cajas Salazar, Nohelia nsalazar@unicauca.edu.co Grupo de Investigacin en Toxicologa Gentica y Citogentica. Departamento de Biologa, Universidad del Cauca Colombia

Resumen

El conocimiento generado por la secuenciacin del genoma humano aceler el desarrollo de metodologas que permiten el anlisis de procesos biolgicos a escala global. Entre ellas la nueva y creciente disciplina de la toxicogenmica relaciona el rea de la toxicologa con la genmica, protemica, metabolmica y la bioinformtica. Estas tecnologas se han constituido en herramientas muy poderosas para estudiar cambios en la homeostasis celular o su estructura a nivel molecular. El trmino omica est relacionado con la capacidad de analizar la mayora de los miembros de una familia de molculas en un solo anlisis. La toxicogenmica consiste en determinar el mecanismo de accin de agentes exgenos por su efecto en el proceso de expresin de un gen o grupos de genes lo cual involucra el anlisis de los componentes celulares controlados por el genoma. De los mtodos que permiten anlisis global del genoma, el que ms atencin recibe por la comunidad toxicolgica es el microarreglo de cidos nucleicos. De esta manera los genes identificados pueden servir como biomarcadores de respuestas txicas especficas por exposicin a ciertos qumicos o clases de qumicos o pueden relacionarse adems para caracterizar la respuesta txica de un rgano. Si las perturbaciones observadas en la expresin de los genes son biolgicamente significativas, ests deben ser seguidas por cambios en la expresin proteica (protemica) o de productos metablicos (metabolmica). Opuesto al mtodo clsico de anlisis de un o pocos genes, el anlisis global de la respuesta de genes al insulto toxico hace posible obtener un perfil completo de los eventos toxicolgicamente importantes lo que conduce a su vez a un conocimiento de los mecanismos de accin del qumico. Por ejemplo, el estudio de los perfiles de expresin gnica in-vitro a llevado a diferenciar txicos reactivos (indirectos) y no reactivos (indirectos) con el ADN. Con este conocimiento las agendas de entidades gubernamentales reguladoras se han propuesto utilizar biomarcadores moleculares para la identificacin de txicos ambientales y garantizar la evaluacin de riesgo basado en la ciencia. Este ambiente de investigacin y de regulacin le provee al rea de la Toxicogenmica el suelo frtil para el descubrimiento y desarrollo de nuevos mtodos en toxicologa molecular y epidemiologa que no parecan posibles diez anos atrs. De esta manera la informacin generada en estudios de Toxicogenmica representan mtodos ms eficientes para identificar y evaluar agentes xenobiticos y monitorear sus efectos en la salud humana.
Palabras clave: toxicogenmica, microarreglo, protemica

biomarcadores

moleculares,

metabolmica,

64

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Cajas Salazar, Nohelia. Colombia. Licenciada en Biologa (Universidad del Cauca).Ph.D. en Epidemiologa Molecular y Gentica (Universidad de Texas, USA). 20 artculos publicados (17 internacionales y 3 nacionales) Lneas de investigacin: Epidemiologa Molecular, Gentica, Salud Ambiental, Carcinognesis.

65

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Desarrollo de una Plataforma de Bioinformtica para el Proyecto de Genmica del Caf en Colombia Development of a Bioinformatics Platform for the Coffee Genomics Project in Colombia
Cristancho, M 1*, Rivera, L1., Orozco, C1., Chalarca, A1., Mueller, L 2., Buell, R3 marco.cristancho@cafedecolombia.com* 1 Centro Nacional de Investigaciones de Caf, CENICAFE, Colombia 2 Plant Breeding Department, Cornell University, USA 3 The Institute for Genomic Research, USA

Resumen

Hemos implementado una plataforma de Bioinformatica basada en servicios Web que funciona como una fuente de informacin genmica de caf y otros organismos estudiados en Cenicaf en Colombia. La plataforma de Bioinformatica incluye un sitio de entrada LIMS (Laboratory Integrated Management System), la implementacin de los servicios del wEMBOSS, desarrollos locales de herramientas en el lenguaje de programacin perl para anlisis de datos, InterproScan para anotacin de dominios de secuencias, y la implementacin de wBLAST and wNetBLAST entre otras herramientas. Aunque el sistema SGN ha sido desarrollado principalmente como un recurso orientado a gemica de plantas, la plataforma de Cenicaf ha implementado nuevos desarrollos y bases de datos para el anlisis y anotacin de otros organismos tales como hongos e insectos. Las bases de datos de Cenicaf contienen ms de 40.000 secuencias de ESTs de caf, organizados en 9.257 unigenes de C. arabica y 1.239 unigenes de la especie C. liberica, 6.000 secuencias de ESTs de la especie B. bassiana y 4.000 secuencias de ESTs de la especie H. hampei, adicionales a las ms de 100.000 secuencias de especies de Solanaceas anotadas en SGN. Las secuencias se anotan basados en comparacin con secuencias de Solanaceas, Arabidopsis, Swissprot y GenBank y los dominios de protenas se anotan usando InterproScan. El sistema implementar en el futuro muy cercano una base de datos de recursos genticos de caf desarrollada por Cenicaf, una plataforma de proteomica, una base de datos para la anotacin de ms de 80.000 secuencias de BAC-ends y sus respectivos fingerprints y una base de datos para la anotacin de resultados de experimentos de Microarrays. Para estos desarrollos hemos establecido una estrecha colaboracin con el grupo de Bioinformtica de TIGR.
Palabras Clave: bioinformtica, Coffea Arabica, coffee genomics, anlisis de secuencia

Abstract

We have implemented a web-based Bioinformatics platform that functions as a genomics information resource for coffee and other organisms studied at the Colombia National Coffee Research Center - CENICAFE. The Bioinformatics platform includes a

66

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Laboratory Integrated Management System (LIMS), the implementation of wEMBOSS, home-developed perl tools for data analysis, InterproScan for annotation of sequence domains, and the implementation of wBLAST and wNetBLAST among other tools available. Although SGN has mainly developed as a plant genomics oriented resource, the Cenicafe platform has implemented several new tools and databases for the analysis of other organisms sequence data such as fungi and insects. The Cenicafe databases contain to date more than 40.000 coffee EST sequences organized in 9.257 C. arabica and 1.239 C. liberica unigenes, 6.000 Beauveria bassiana EST sequences, and 4.000 Hypothenemus hampei (coffee berry borer) EST sequences, besides the more than 100.000 Solanaceae unigene sequences annotated at SGN. The sequences are annotated based on Solanaceae, Arabidopsis, Swissprot and Genbank sequence comparisons using BLAST homology searches, aminoacids are predicted using ESTScan, the domains are annotated using InterproScan and Gene families are annotated using a perl script developed at SGN. The system will implement in the near future a database of coffee genetics resources developed at Cenicafe, a proteomics platform, a BAC sequences database to annotate over 80.000 BAC-end sequences and fingerprints, and a Microarray database. We will also be incorporating other components to the platform specially for the visualization of genetic maps from the Gmod project (Gbrowse), the SGN system, TIGR, and other open source projects.
Key Words: bioinformatics, Coffea arabica, coffee genomics, sequence analysis Cristancho Marco-A. Colombia. Microbiologa (Universidad de Los Andes, Colombia). Ph.D. (University of Manchester, Reino Unido). Investigador Principal, Departamento de Patologa Vegetal-CENICAFE, Colombia. 11 publicaciones internacionales. Lneas de investigacin: desarrollo de herramientas bioinformticas, caracterizacin molecular del caf, Caracterizacin de secuencias EST en el genoma del caf, desarrollo de marcadores moleculares en caf. Desarrollo de una Plataforma de Bioinformtica para el Proyecto de Genmica del Caf en Colombia Introduction

Coffee is one of the most important agricultural commodities in the world, providing large resources for the economies of many developing countries. Despite its global importance, very little information has been gathered from this plant at the genetic level. As of July 2006, roughly 3.000 DNA sequences from the species C. arabica had been deposited in the GeneBank database. Only recently, a large Expressed Sequenced Tag data set from the species C. canephora developed jointly by Nestl and Cornell University scientists were deposited in public databases (Lin et al. 2005). Genomic research is a field that continuously faces the problem of storing, indexing and retrieving large amounts of data; fortunately for bioinformaticians there is a trend in the field to rely to a greater extent on standard methods for the analysis of this data. It is possible nowadays to share Bioinformatics resources between different research groups and the integrity of the data is not jeopardized in anyway (Teufel et al. 2006).

67

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

ESTs are being produced for a number of plants as a rapid method for gene discovery. For instance rice has more than 1 million EST sequences and there are 12 plant species, most of them grasses, with at least 200.000 EST sequences in dbEST (release 082506, August 2006). The ultimate aim in most projects is to catalogue all the expressed genes in a particular genome. The genus Coffea includes two cultivated species of economic importance, C. arabica L. and C. canephora Pierre. C. arabica (2n = 4X = 44) is an amphidiploid formed by a recent event of hybridization between the diploid species C. eugenioides and C. canephora (Lashermes et al. 1999); all other Coffea species are diploid (2n = 2X = 22). ESTs and microsatellite markers have not been extensively developed in coffee as in other crops. Only eleven microsatellite markers were obtained by Combes et al., (2000) and they have been used for the study of allele number and heterozygosity level in several diploid and tetraploid coffee species. The aim of the present work was the development of a Bioinformatics platform for the storage, comprehensive analysis and easy retrieval of molecular data generated in Colombia from the Coffee Genome Initiative taking place in Cenicafe.
Development of the Platform

The coffee genomics project started in 2003 in Colombia with the financing of the Ministry of Agriculture and the National Coffee Growers Federation. The main outcomes expected from this research include the development of molecular tools and markers for coffee, construction of a C. arabica genetic map, identification of agronomic important genes, and the development of a Bioinformatics platform to store and analyse the data generated in the project. A major part of the molecular tools been developed involve; the generation of a large set of ESTs; construction, fingerprinting and sequencing of a C. arabica BAC library; and the detection of microsatellite, COS and SNP markers. We have also incorporated as part of our genomics research the development of tools to study the genomes of Hypothenemus hampei and Beauveria basiana. From the start, the Bioinformatics platform has been a major component of the genomics research at Cenicafe. Our efforts have concentrated in the development of relational databases, tools for data analysis, and web-based user-friendly interfaces to access data, based on open source technology. We use commercial software just in very special scenarios of our analysis. We have engaged in close collaborations with research groups that adopt this kind of approach in their Bioinformatics developments and consequently our main partners in this area are the Solanaceae Genomics Network based in the Department of Plant Breeding at Cornell University and The Institute for Genomic Research TIGR in Rockville, Maryland. Computer resources: We have a cluster that consists of a master server (IBM x346. Disk space RAID5: 1,2 TB, RAM: 5 GB, CPU: 2 x 3,6GHz Intel Xeon) and 7 server nodes for data processing (Opteron e-325, 64 bits). For the functioning of the cluster, we use NFS (Network File System) and samba to share directories.

Software resources: The master server runs the Apache webserver, most machines run Debian GNU/Linux as operating system, and generally we develop programs in perl for processing data, and perl-cgi and PHP for Web development. Our first Database Management System was constructed using the MySQL relational database and we are currently migrating to the PostgreSQL database system. We implemented the

68

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

applications MPI-BLAST and ClustalW-mpi to run on the cluster. By running these processes on the cluster we have calculated up to 6 times reduction in processing of data. The Bioinformatics group efforts are concentrated in two major areas, service and production (development). The service routines include the analysis of sequence and other types of data produced by Cenicafe genomics scientists. The development activities include the setting up and administration of Bioinformatics servers, construction of structured databases, development of web-based interfaces for the display of data and the writing of scripts in perl and other languages for the manipulation of data.
Implementation of Software

The Bioinformatics system is accessible through a web-based interface from which all databases and tools are available (Figure 1). The system is built-in a Laboratory Integrated Management System that incorporates a project administration resource, coffee and other organisms databases (SGN Schema), the wEMBOSS suite of tools (Rice et al 2000) and local implementations of BLAST (Altschul et al., 1990) to run particular types of analysis (wBLAST, BLASTXtract and wNetBLAST among others).
Data Analysis

While the Sol Genomics Network has mainly developed as a plant genomics oriented resource, the Cenicafe platform has implemented several new tools and databases for the analysis of other organisms molecular data such as fungi and insects. The core of the system is to date the SGN database schema, but our platform has incorporated several additional modules to annotate fungi and insects, given that as mentioned above, genomics data is also been produced from H. hampei (the coffee berry borer) and B. bassiana (biological control agent). ESTs are analyzed based on an adaptation of the SGN pipeline (Mueller et al. 2005). In synthesis, chromatograms are called with phred (Ewing et al., 1998), assemblies are performed with CAP3 (Huang and Madan 1999), full length EST sequences are computed by TargetIdentifier (Min et al. 2005), aminoacid prediction is accomplished by ESTScan (Iseli et al. 1999), and functional annotation of sequences is performed with several databases among them GenBank, and more specialized databases like Solanaceae and Arabidopsis for plants, Sacharomyces and Magnaporthe for fungi, and Drosophila and Tribolium for insects. Additional functional annotation of Gene Ontology terms (Ashburner et al., 2000) is performed in house with InterProScan (Mulder et al., 2003; Zdobnov and Apweiler 2001). Several steps of the process include scripts written in perl at SGN and Cenicafe. Other Bioinformatics analysis includes the discovery of SSR markers, development of specific PCR primers, prediction of SNPs and homology comparisons between large sets of sequences. SNP prediction is accomplished through the comparison of several homologous sequences and their visualization is performed with the software CodonCode Aligner (CodonCode Corporation, Dedham, MA).

69

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Table 1 illustrates the number of ESTs analyzed sequences deposited in Cenicafe databases. These numbers are continuously increasing and there will shortly be an update of the databases to incorporate a number of new coffee ESTs and BAC-end sequences. It is possible to retrieve the data from the databases in very specific ways according to the scientists needs; an example of a tissue-specific expression analysis of C. arabica transcripts is shown in Table 2. Cenicafe databases also include more than 1000 coffee microsatellite sequences used for the construction of coffee genetic maps and diversity studies and data gathered from COS and SNP markers studies.
Final remarks and Future Prospects

The system will implement in the near future a database of coffee genetics resources developed at Cenicafe, a proteomics platform, and a Microarray database. We will also be incorporating other components to the platform specially for the visualization of genetic maps from the Gmod project (Gbrowse Generic Genomic Browser, Stein et al 2002), the SGN system, TIGR, and other open source projects. A BAC relational database is in the process of construction and it will include over 60.000 BAC-end sequences been generated at Arizona University. We are in the process of mirroring the Solanaceae Genomics Network site (http://sgn.cornell.edu/) that will be accessible from (http://sgn.cenicafe.org/). The projected web interface of the mirror site can be viewed in Figure 2. We will have to develop ways of defining complex interactions, functional annotation and integration of proteomics, microarrary and other data that will emerge from the project. Several new ways of integrating these data are emerging (Rhee et al. 2006).

70

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Figure 1. Web interface of the Cenicafe LIMS system which integrates access to databases and analysis tools.

Figure 2. Web interface of the SGN mirror at Cenicafe. The service of this mirror must be available in the next few months.

Table 1. Number of EST sequences deposited in Cenicafe databases

LIBRARIES COFFEE Coffea arabica Coffea liberica Coffea canephora Coffea spp. FUNGI Beauveria bassiana INSECTS Hypothenemus hampei 17 4 5 1 8 2

CHROMATOGRAMS 35.000 3.613 47.000 497 5.300 3.563

UNIGENES 9.257 1.239 13.750 210 2.404 885

71

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Table 2. BLAST homology searches of C. arabica Unigene sequences, number of ESTs that compose each unigene and representation in 3 tissue-specific libraries.

Unigene No.

No. FR Members 244 201 192 168 143 138 122 98 80 68 64 133 101 25 21 26 40 86 72 40 16 48

L FL

BLAST

ORGANISM

sgn|U269499 sgn|U269496 sgn|U269332 SGN-U269331 SGN-U268736 SGN-U268469 SGN-U269498 SGN-U268200 SGN-U269495 SGN-U268647 SGN-U269497

110 76 113 108 100 29 36 19 30 52 16

1 24 54 39 17 69 0 7 10 0 0

No hits Metallothionein acidic endochitinase acidic endochitinase lipid transfer protein DNA replication No hits metallothionein Metallothionein chlorophyll a /b binding protein No hits

C. arabica At At At SV40 Citrus unshiu C. arabica At

Acknowledgements

The authors wish to thank the National Federation of Coffee Growers of Colombia and the Ministry of Agriculture of Colombia for their financial support.

References

Altschul,S.F., Gish,W., Miller,W., Myers,E.W. and Lipman,D.J. (1990) Basic local alignment search tool. J. Mol. Biol., 215, 403410. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, et al (2000) Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet 25: 2529 Charu G. K, Richard LeDuc, George Gong, Levan Roinishivili, Harris A. Lewin, Lei. Liu, W.M. Keck. ESTIMA, a tool for EST management in a multi-project environment. BMC Bioinformatics 2004, 5:176-200. Ewing B, Hillier L, Wendl M, Green P: Basecalling of automated sequencer traces using phred. I. Accuracy assessment. Genome Research 8:175-185 (1998). Huang X, Madan A (1999) CAP3: a DNA sequence assembly program. Genome Res 9: 868877 Iseli C, Jongeneel CV, Bucher P. (1999). ESTScan: a program for detecting, evaluating, and reconstructing potential coding regions in EST sequences. Proc Int Conf Intell Syst Mol Biol.138-48. Lashermes P, Combes MC, Robert J, Trouslot P, D'Hont A, Anthony F, Charrier A (1999) Molecular characterization and origin of the Coffea arabica L. genome. Mol. Gen. Genet. 261:259-266. Lin C, Mueller LA, Mc Carthy J, Crouzillat D, Ptiard V, Tanksley SD. Coffee and tomato share common gene repertoires as revealed by deep sequencing of seed and cherry transcripts. Theor Appl Genet (2005)

72

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Min, X.J., Butler, G, Storms, R. and Tsang, A. TargetIdentifier: a web server for identifying full-length cDNAs from EST sequences. Nucleic Acids Res., 2005, Vol. 33, Web Server Issue W669-W672. Mueller LA, Solow TH, Taylor N, Skwarecki B, Buels R, BinnsJ, Lin C, Wright MH, Ahrens R, Wang Y, Herbst EV, Keyder ER, Menda N, Zamir D, Tanksley SD. The SOL Genomics Network. A Comparative Resource for Solanaceae Biology and Beyond. Plant Physiology 138(13101317. 2005 Mulder NJ, Apweiler R, Attwood RK, Bairoch A, Barrell D, Bateman A, Binns D, Biswas M, Bradley P, Bork P, et al (2003) The Interpro database, 2003 brings increased coverage and new features. Nucleic Acids Res 31: 315318 Rhee, S.Y., Julie Dickerson, Dong Xu. Bioinformatics and Its Applications in Plant Biology. Annu. Rev. Plant. Biol. 2006.57:335-360. Rice, P., Longden, I., Bleasby, A. (2000) EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet, . 16, 276277 Stein LD, Mungall C, Shu S, Caudy M, Mangone M, Day A, Nickerson E, Stajich JE, Harris TW, Arva A, et al (2002) The generic genome browser: a building block for a model organism system database. Genome Res 12: 15991610. Teufel, A, Markus Krupp, Arndt Weinmann, Peter R. Galle. Current bioinformatics tools in genomic biomedical research (Review). International journal of molecular medicine 17: 967-973, 2006. Zdobnov EM, Apweiler R (2001) InterProScanan integration for the signaturerecognition methods in InterPro. Bioinformatics 17: 847848

73

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Modelos Estocsticos en la Prediccin de la Regin Reguladora. Predicting the Regulatory Region by Stochastic Modeling.
Cuarn J. Margot E.*Tischer, Irene mecuaran@eisc.univalle.edu.co* Universidad del Valle, Cali Colombia

Resumen

El crecimiento exponencial de la cantidad de datos en las bases de datos genmicas requiere de herramientas computacionales de prediccin de promotores cada vez ms precisas, que permita conocer e interpretar estos datos. Un promotor es una subsecuencia de cido desoxirribonucleico (ADN) que regula la expresin del gen (control y regulacin del inicio de transcripcin). La prediccin de estas regiones reguladoras de una secuencia ADN, no slo permite conocer las caractersticas de cada motivo y sus mecanismos de control; sino que adems ofrece una muy buena aproximacin del inicio de un gen. En este trabajo de investigacin se presenta un novedoso modelo de prediccin de promotores polimerasa II, el cual se denomina Modelo de Identificacin de Motivos de promotores eucariota (MIMO). MIMO presenta un modelo probabilstico de algunas propiedades estructurales y composicionales de la regin promotora, el cual se aplica en el reconocimiento de promotores en secuencias de vertebrados. La arquitectura de este modelo es un caso especial del modelo oculto de Markov con probabilidad de distribucin multiespacial, originalmente para reconocimiento de voz, que permite reconocer algunos elementos de la regin promotora, independientemente de la localizacin. Los submodelos para el reconocimiento de los elementos se entrenan especficamente para reconocer la posicin de las secuencias consensos en una serie de promotores eucariotas. El modelo captura la importancia potencial de las predicciones de cada submodelos para las subsecuencias locales y las combina para reconocer la secuencia global (promotor).
Palabras clave: herramientas computacionales de prediccin, MIMO, Markov, secuencia global

Cuarn Jaramillo, Margot Edith. Colombia. Ingeniera de Sistemas (Universidad del Valle). Maestra en Ciencias de la Computacin. (Universidad del Valle). Lneas de Investigacin: Bioinformtica, Modelacin Computacional, Geomtica Sistemas de informacin geogrfica.: mecuaran@eisc.univalle.edu.co

74

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Modelos estocsticos en la prediccin de la regin reguladora


Tischer, Irene Escuela de Ingeniera de Sistemas y Computacin, Grupo de Bioinformtica Univalle Universidad del Valle, Cali-Colombia irene@eisc.univalle.edu.co Cuarn, Margot Edith Escuela de Ingeniera de Sistemas y Computacin, Grupo de Bioinformtica Univalle Universidad del Valle, Cali-Colombia mecuaran@eisc.univalle.edu.co

Resumen

Un promotor es una subsecuencia de cido desoxirribonucleico (ADN) que regula la expresin del gen (control y regulacin del inicio de transcripcin). La prediccin de estas regiones reguladoras, en una secuencia ADN, no slo permite conocer las caractersticas de cada motivo y sus mecanismos de control; sino que adems ofrece una muy buena aproximacin del inicio de un gen. La mayora de los predictores de promotoras presentan el inicio y final de estas regiones, incluyendo el sitio de inicio de transcripcin, pero ninguno trabaja directamente con la identificacin de la estructura misma. En este documento se propone un modelo para la identificacin de los motivos de los promotores eucariotas clase II (MIMO), que se aplica sobre conjuntos de promotores, con el objetivo de distinguir algunos de los elementos ms caractersticos en la regin reguladora: las cajas CG, CAAT y TATA. Con la aplicacin del modelo se obtiene la identificacin de configuracin ptima (puntaje mximo) de estos elementos y, para algunos ejemplos, se puede mostrar que esta configuracin coincide con lo biolgicamente esperado.
Palabras claves: promotor, identificacin elementos cis-reguladores. Modelos estocsticos en la prediccin de la regin reguladora Introduccin

La prediccin de exones tiene gran importancia porque permite conocer la funcionalidad de las secuencias, pero la caracterizacin e identificacin de las secuencias de control inmersas en la regin 5' (prediccin de secuencias promotores), adquiere una connotacin especial cuando favorece la localizacin aproximada del sitio de inicio transcripcional, que indica el inicio de un gen. De hecho, la prediccin de promotores es especialmente til en eucariotas donde las regiones codificantes, que se esparcen en grandes regiones no codificantes de ADN, pueden pasar desapercibidas en secuencias muy largas. Entonces, la localizacin del mecanismo de regulacin cobra importancia porque contribuye de manera determinante a la identificacin de genes y la prediccin de la expresin del gen.

75

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Muchos identificadores confiables de secuencias codificantes se han desarrollado, pero los avances en la prediccin de las secuencias no codificantes son mnimos y con bajas tasas de reconocimiento, quizs debido a la reducida cantidad de datos anotados de estas secuencias sobre las regiones genmicas. La aproximacin en esta de investigacin se enfoca a la deteccin computacional de elementos del promotor de organismos eucariotes, o regiones no codificantes de regulacin, mediante el diseo de un modelo probabilstico que usa una arquitectura especial sobre algunos elementos del promotor ncleo y proximal, basada en el modelos ocultos de Markov con probabilidad de distribucin multiespacial, propuesto en (Masuko, 2002). Este novedoso modelo de prediccin de elementos de promotores polimerasa II, Modelo de Identificacin de MOtivos de promotores eucariota (MIMO), presenta un modelo probabilstico de algunas propiedades estructurales y composicionales de la regin promotora; las cuales se pueden aplicar en el reconocimiento de promotores en secuencias ADN eucariotas. La arquitectura de este modelo es un caso especial del modelo oculto de Markov con probabilidad de distribucin multiespacial, originalmente usado en el reconocimiento de voz, que permite reconocer algunos elementos de la regin promotora, independientemente de su localizacin. Los submodelos para el reconocimiento de los elementos se entrenan especficamente para reconocer la posicin de las secuencias consensos en una serie de promotores eucariotas. MIMO captura la importancia potencial de las predicciones de cada submodelo, para las subsecuencias locales, y las combina para reconocer la secuencia global (elementos del promotor).
Metodologa

MIMO es un modelo para identificar algunos de los elementos ms representativos (mayor significancia biolgica posible) de los promotores polimerasa II, que se construye en tres etapas:
Generacin de las observaciones multiespaciales. En esta etapa, la secuencia ADN se transforma en una estructura de tridimensional, con el objetivo de seleccionar las subsecuencias candidatas a motivo y filtrar las no candidatas (otros). En esta seleccin se requiere una funcin de evaluacin capaz de distinguir, con significancia biolgica, los elementos cis-reguladores del resto de la secuencia promotora. Combinacin de las configuraciones. En la segunda etapa, se construye un espacio de bsqueda con la mejor combinacin de los candidatos a motivos para estimar los patrones ms factibles. Para la combinacin se requiere una funcin de evaluacin que determine la factibilidad del patrn, mezcla de varios candidatos, mediante construcciones que no consideren candidatos solapados en una misma posicin por patrn. Es necesario controlar el modelo desarrollado debe controlar el nmero de patrones factibles, porque el espacio de bsqueda puede llegar a ser realmente grande. Seleccin computacional del mejor patrn. En la ltima etapa y mediante la aplicacin del algoritmo dinmico con poda eficiente, se garantiza que se encuentra la combinacin de elementos cis-reguladores ptima a partir de un conjunto de

76

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

candidatos que se define mediante una funcin de evaluacin. En esta etapa, se relaciona cada elemento de la seleccin ptima con la secuencia promotora ADN. Inicialmente se toma la secuencia ADN promotor de 250 nucletidos de longitud, sobre la que se ha detectado el SIT. Sobre esta secuencia se aplica un mtodo basado en el modelo oculto de Markov con probabilidad de distribucin multiespacial que transforma la secuencia en otra que contiene varias dimensiones, una para cada uno de los elementos cis-reguladores del estudio (GC, CAAT y TATA). Esta transformacin se apoya en las matrices de peso posicional para determinar cules subsecuencias corresponden a un cis-regulador dado, a cul y con qu peso. Para esto, se recurre al desplazamiento de una ventana que se desliza una posicin, a la vez, de izquierda a derecha. La ventana tiene 12 nucletidos de longitud debido a la dimensin de las matrices de peso definidas para cada elemento.

Figura 1. Esquema de seleccin de la regin promotora con MIMO, en la cual usa el mximo puntaje de la mezcla por espacio (fechas azules) y por concatenacin (flecha rojas). Adaptado de (Tokuda, 2003)

El peso de cada ventana se determina por la suma de los logaritmos de las probabilidades de coincidencia con la matriz de peso. Como se observa en la figura 1 para cada ventana se calcula los puntajes para cada elemento cis-regulador y se puede dar el caso donde se identifica varios elementos, uno o ninguno. Despus, en cada posicin de la secuencia tridimensional se puede ver como un vector binario que contiene la existencia (1) o ausencia (0) de una seal; con los que se construyen los patrones, tal como se muestra en la figura 2. En la figura 3 se muestra la adaptacin sencilla del modelo biolgico de la regin promotora, que aqu se usa para la composicin de los patrones. Cada flecha en la figura representa una transicin con una probabilidad asociada. La estructura se compone de tres submodelos que representan las cajas GC, CAAT y TATA, en azul y tamao fijo, y uno por defecto para las regiones aleatorias, en negro y tamao variable.

77

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Figura 2. Por cada posicin de la secuencia, se determina en qu elemento cis-regulador (estado) se clasifica el contenido de la ventana de interpretacin.

Para la decodificacin se utiliza un algoritmo que alinea cualquier secuencia al modelo propuesto. El algoritmo encuentra las secuencias de estados con ms puntaje, a travs del modelo para una secuencia particular. Adems, calcula el puntaje del modelo que produce esa secuencia (patrn). Aunque hay un nmero importante de diferentes patrones, el algoritmo siempre encuentra el mejor.

Figura 3. La estructura muestra la adaptacin del modelo biolgico con el cual se construyen los patrones.

Finalmente, se construye el patrn escogido sobre la secuencia ADN inicial, a partir de la secuencia transformada.
Resultados Experimentacin

Se tomaron dos conjuntos de prueba: Conjunto de 17 secuencias de promotores identificados por medio biolgicos, los cuales de referencian en (Fickett, 1997) y se obtienen de http://www.genome.org/cgi/. Se elige este grupo de secuencias dado que tienen anotados el SIT.

78

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Conjunto de 51 secuencias de promotores, identificadas por mtodos computacionales y SIT definido, que se obtienen de la base de datos de promotoras eucariotas. El primer conjunto, slo tiene dos secuencias anotadas con algunos elementos cisreguladores. Los resultados que MIMO arroja son muy cercanos a las anotadas. Pero el anlisis se realiza sobre las secuencias del segundo conjunto, porque pertenecen a una misma especie, los vertebrados. Y se sabe que los motivos genmicos se conservan entre especies. Se realizan las tres etapas para construir el modelo, descrito en la seccin 2, con los siguientes parmetros: Ventana de anlisis de 12 nucletidos de longitud, como consecuencia de la cantidad de columnas de las matrices de peso para cada elemento cis-regulador. Conjuntos candidatos, uno para cada elemento, con 10 elementos, cada uno. Sobre estos conjuntos se construye el espacio de bsqueda. Secuencia de promotores de 300 nucletidos de longitud.
Anlisis

MIMO se aplica al conjunto de secuencias de prueba. El umbral para la cantidad de candidatos es de 10, por cada elemento. Se elige este valor por dos razones: son los mejores puntajes luego, con estos datos ya se tiene un espacio de bsqueda considerable y, la cantidad de elementos cis-reguladores que se espera encontrar por secuencias es en promedio seis: una TATA, dos CAAT y tres GC. En el cuadro 1 se muestra los resultados obtenidos por el modelo. Observe hay 51 secuencias y se identifican 274 elementos cis-reguladores, lo que deja un promedio de 5,3 cajas por secuencia.
CG 78 CAAT 101 TATA 95 TOTAL 274

Cuadro 1. Resultados de la aplicacin del modelo a las 50 secuencias promotoras.

Como consecuencia directa de la falta de bases de datos anotadas en los elementos caractersticos de la regin promotora, se decide validar la identificacin desde el modelo a travs de la posicin de las secuencias conservadas para eucariotas. As, se espera que una buena identificacin tenga ubicadas las cajas en las posiciones descritas en el cuadro 2.
Elemento GC CAAT TATA Posicin Consenso -500 hasta -100 -100 hasta -75 -80 hasta -25
Cuadro 2. Sitios consenso generalizados para eucariotas

Promotor Distal Proximal Ncleo

79

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Figura 4. Histogramas de las frecuencias de los elementos cis-reguladores detectados por MIMO. Se resalta en negro los resultados que concuerdan con la distribucin del cuadro 2. En a) los resultados de la caja GC, note que se detect una buena cantidad en el rango [-250,-175]. Sin embargo, en b) se grafican las frecuencias de la caja CG de las identificaciones con los mejores puntajes; el mayor porcentaje de estos elementos se encuentra en el rango [-250,200]. En c) se grafican los resultados de la caja CAAT y en d) la identificaciones con los mejores puntajes; en esta ltima se observa una ligera preferencia de encontrar estos elementos en el rango [-100,-50]. Finalmente, en e) se presenta los de la caja TATA y en f) los mejores resultados para la misma; note la inclinacin de identificar las cajas TATA en el rango [-50,+1]. Observe que el elemento que se identifica con mejor puntaje es la caja TATA.

Caja GC

Del histograma de las figuras 4a y 4b es posible observar que en el rango desde -250 hasta -175 se clasifican las cajas GC con los mejores puntajes, cumpliendo as lo establecido en el cuadro 2. A lo largo del resto de la secuencia se aprecia un distribucin homognea de estas cajas; algo interesante si se tiene en cuenta que una

80

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

caracterstica particular de las GC es que tiene una presencia significativa en el promotor proximal y el ncleo.
Caja CAAT

La caja CAAT debera tener una buena representacin en el rango -75 hasta -100, pero en los resultados MIMO, este segmento slo alcanza el tercer lugar. Sin embargo, como se discute en (Ishii et., 1987), estas cajas suelen tener copias simtricas en el promotor distal. Adems, en la figura 4a, desde la posicin -50 hasta la -25, tericamente destinado para ubicar los elementos TATA, se localizan muy pocas cajas CAAT.
Caja TATA

El histograma de las figuras 4e muestra dos regiones donde se predicen las caja TATA, rango inferior a -255 y superiores a -50. De los tres elementos idenficados, este fue el de mayor significancia porque s se toma como en la figura 4f, los resultados con los mejores puntajes, es evidente que el rango desde -1 hasta -50 tendr muy buena representatividad.
Discusin

El inters en este trabajo es la identificacin de los elementos cis-reguladores de las regiones promotoras. Despus de hacer el proceso de modelamiento de estos problemas, se detectan una gran cantidad de inconsistencias en el conocimiento mismo del problema, generadas por la complejidad del funcionamiento biolgico de los mismos. Desde el punto de vista computacional, la complejidad del problema de reconocimiento de los elementos de los promotores radica en que dada una secuencia no se sabe si un trozo de la misma es un motivo de significancia biolgica o no, a no ser que se hagan los experimentos de laboratorio; porque de hecho no hay bases de datos que reporten anotacin de estos elementos. Lo nico con lo que se cuenta es la cadena conservada y un lugar de preferencia de aparicin, calculados a partir de predicciones por homologa, pero no se conoce exactamente su composicin y la distancia entre las mismas es variable. Todo el anlisis que se hace en las secciones anteriores se basa en estos supuesto. El solapamiento que se presenta en las regiones promotoras puede ser la caracterstica que explique las altas concentraciones de las cajas en otros lugares. Estas caractersticas hacen que la construccin de un modelo preciso para identificar los elementos cis-reguladores del promotor no sea una tarea sencilla, si bien se cuenta con las matrices de peso para cada elemento, esta realmente no aporta una significancia biolgica que permita tener herramientas de seleccin con los mejores niveles de precisin. El no poder determinar qu es o no un elemento cis-regulador, ni siquiera por comparacin, hace que no se pueda resolver el problema de reconocimiento de promotores mediante algoritmos exactos. Por supuesto, en este trabajo se alcanza a mostrar un grupo de posibles combinaciones con un puntaje aceptable, poniendo la menor cantidad de elementos, previamente identificado el SIT. Teniendo en cuenta que la matriz de peso posicional no se

81

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

especifica la funcionalidad de las secuencias, se debe extender la observacin de la conservacin de las secuencias reguladoras para aumentar la especificidad predictiva del modelo; por ejemplo, se podra adicionar a la informacin de la matriz, las interacciones de los factores de trascripcin asociados a los mdulos cis-reguladores.
Conclusiones

En este trabajo de investigacin se propuso y aplic un mtodo computacional al problema de reconocimiento de los elementos cis-reguladores. La solucin se basa en la combinacin de tres modelos, ampliamente usados en el contexto de genmica y reconocimiento de voz: matrices de peso, modelo oculto de Markov con probabilidad de distribucin multiespacial y los modelos ocultos de Markov generalizado. El modelo propuesto tiene la capacidad de tomar una secuencia promotora y transformarla en una secuencia multiespacial, a travs del modelo oculto de Markov con probabilidad de distribucin multiespacial. Y, mediante un algoritmo dinmico basado en los modelos ocultos de Markov generalizado, construye el espacio de bsqueda de la mejor combinacin factible de cada elemento identificado a travs de las matrices de peso. La resolucin de este modelo brinda la posibilidad de identificar mltiples elementos en una misma posicin La arquitectura del modelo se construye a partir de la estructura bsica de una regin promotora eucariota, que valga la pena decirlo, por ausencia de bases de datos de prueba no es explotada como se quisiera. La combinacin de estos mtodos trata de subsanar un poco estas deficiencias, con lo cual hacen de MIMO una aproximacin factible para la resolucin del problema planteado. En la construccin de este modelo se exploraron algunos de los mtodos computacionales ms utilizados en el rea de la biologa computacional: mtodo por consenso, basado en bsqueda de patrones, matrices de peso por entropa y modelos ocultos de Markov. Ninguna cumpli las caractersticas para solucionar el problema objeto de este estudio, pero sus anlisis aportaron elementos de juicio sobre la bondad de MIMO como: Mayor capacidad en aciertos tericos, con menor cantidad de falsos positivos. Ante la ausencia de datos de entrenamiento, busca elementos de juicio globales a la secuencia para determinar si la construccin es la mejor o no.
Alcance concreto

En este trabajo de investigacin se realiz el estudio de algunas caractersticas propias de las regiones reguladoras, con lo que se permiti determinar una estructura bsica que represente el contenido de un promotor polimerasa II eucariota. Con esta caracterizacin se procedi a construir el modelo de identificacin de motivos de promotores eucariotas, MIMO. MIMO es un modelo construido con la mezcla de las bondades de los modelos de matrices de peso, modelos ocultos de Markov con probabilidad de distribucin multiespacial y modelos ocultos de Markov generalizado. A la hora de buscar datos biolgicos para hacer las pruebas se dan dos situaciones:

82

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

No hay bases de datos orientadas a la anotacin de los elementos del promotor. Las secuencias promotores y, particularmente, el SIT se identifican con modelos computaciones, cuyos resultados no se validan en el laboratorio biolgico. Tratar de construir un modelo de identificacin que no utilice tantos supuesto no es una tarea sencilla, mxime cuando obtener datos reales es tan costoso. Debido a estas limitaciones con los conjuntos de datos, en este trabajo de investigacin, la validacin se realiza con un conjunto de tres secuencias anotadas.
Apreciacin

Es fcil entender que no basta con la prediccin del promotor, tambin se requiere una aproximacin a su estructura. Entonces, una secuencia se puede comparar con otras secuencias promotoras y empezar a tener bases de datos anotadas, as sea computacionalmente, que permitan mejorar las herramientas de prediccin de las secuencias reguladoras y, por ende, las codificantes. Pero lo ms interesante es que al conocer algunas de las caractersticas relevantes de la regin, se puede inferir conocimiento tanto de la estructura como de su funcionamiento. En este trabajo se decide hacer una aproximacin al problema de la caracterizacin de las secuencias reguladoras a travs de la construccin del modelo de identificacin de motivos de promotores eucariotas, MIMO. Este modelo es interesante porque no utiliza ms supuestos que el uso de la matriz de pesos. Como estas matrices de peso se obtienen por homologa, es comprensible que genere muchos patrones candidatos, sobre los cuales se puede hacer una seleccin adecuada que represente la estructura global, situacin que MIMO aprovecha muy bien. Tambin es comprensible que las limitaciones biolgicas de las matrices de peso no siempre permiten llegar a la mejor solucin, pero MIMO es capaz construir un patrn ptimo. Con este trabajo de investigacin se busc contestar la siguiente hiptesis: Se puede modelar la regin codificante de un gen usando el modelo oculto de Markov con distribucin de probabilidad multiespacial? Algunos antecedentes preliminares en la bibliografa, tanto en problemas de procesamiento de voz como en reconocimiento de de genes, sugeran que: El MOM puede ser un buen enfoque en la prediccin del gen, ya que los parmetros que se utilizan en la identificacin de cada componente del gen se pueden generar del MOM directamente, basado en el criterio de mxima verosimilitud (maximum likelihood criterion). El modelo convencional de MOM no es tan eficiente manejando contextos globales de la prediccin de componentes de genes y, la composicin de las componentes y los lmites entre ellas son difciles de identificar. El MOM-DPM extender el MOM para modelar una secuencia de vectores de observacin con variables dimensionales, lo cual permitir que los componentes y sus parmetros se puedan modelar y generar en una estructura unificada de MOM.

83

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Por estos motivos, y a la casi ausencia de las bases de datos de elementos de promotores, se explor el uso de MOM-DPM en la prediccin de la regin codificante de genes eucariotas clase II. Para la decodificacin del modelo se recurri al modelo oculto de Markov Generalizado, propuesto por Majoros en (Majoros, 2004; Pertea etc, 2004; Majoros etc, 2005). Las pruebas realizadas mostraron buenos resultados tericos.
Bibliografa

Fickett, 1997. Ishii, 1987.

J. Fickett and A. Hatziegeorgius, Eukaryotic recognition, Genome Research, (1997), p.p 861-878.

promoter

Majoros, 2004 Majoros, 2005 Masuko 2002 Pertea, 2004

Tokuda, 2003

S. Ishii, F. Imamoto, Y. Yamanashi, K. Toyoshima and T. Yamamoto. Characterization of the promoter region of the human c-erbB-2 protooncogene, Proc. Natl. Acad. Sci. USA, (1987), pp. 4374-4378. W. Majoros. Design and implementation of a Hidden Markov Model Gene Finder, tech. reports. The institute for Genomic Research, (2004). W. Majaros; M. Pertea; A. Delcher and S. Salzberg. Efficient decoding algorithms for generalized hidden Markov model gene finders. BMC Bioinformatics (2005), p.p. 1-13. Takashi Masuko. HMM-Based Speech Synthesis and Its Applications, PhD Thesis, Tokyo Institute of Technology, 2002. W. Majaros; M. Pertea and S. Salzberg. Efficient Implementation of a Generalized Pair Hidden Markov Model for Comparative Gene Finding, tech. Reports. The institute for Genomic Research, 2004. Keiichi, Tokuda, Heiga Zen and Alan Black. An HMM-Based speech synthesis system applied to english. Nagoya Institute of Technology and Carnegie Mellon University, 2003.

84

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genomas de Plantas de Inters Agrcola Desarrollados en Brasil Crop Plants Genome Projects from Brazil
Da Silva, Felipe Rodrigues felipes@cenargen.embrapa.br Embrapa Recursos Genticos e Biotecnologia CxP 02.372 CEP 70.770-900 Brasilia - DF Brazil fax: +55(61)3340.3658

Brazil was a relatively late comer to the Genomics party. However, the initial Brazilian genome projects results were praised both by the popular and scientific media, in Brazil and abroad. In this talk, the plant genome projects conducted in Brazil will be used as background to present Molecular Biology and Bioinformatics basic concepts, needed to understand this new Biology field. The subject will be approached in a way that allows people from distinct fields to follow it. Real data from Sugarcane and Banana Genome Projects will be used to illustrate the talk, bringing recently described data to experts in Genomics, Crop Improvement, Genetics, Molecular Biology, Phytopathology and Evolution. Interaction and discussion among scientists from fields not always related is the goal of the talk.
Keywords: genome, ESTs, sequencing, bioinformatics, crop science, molecular biology.

Rodrigues Da Silva, Felipe. Brasil. Bilogo. Ph.D. en Gentica y Biologa Molecular. Investigador Senior de EMBRAPA. Lneas de investigacin: integracin de secuencias de ADN, Protemica y anlisis de datos de la expresin de genes. felipes@cenargen.embrapa.br

85

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Aplicacin de la Minera de Datos a la Bioinformtica. Applying Data Mining to Bioinformatics.


Martinez, Ember Ubeimar, Daz, Nstor M, nediaz@unicauca.edu.co, eumartinez@unicauca.edu.co Universidad del Cauca

Resumen

Con la proliferacin de grandes cantidades de informacin biolgica resultante de la utilizacin de mtodos biotecnolgicos, cada vez es necesario utilizar mayor cantidad de tcnicas informticas que permitan tratar datos de tal forma que esta informacin pueda ser expresada en forma ms concisa. Dentro de las tcnicas de procesamiento de informacin en bsqueda de conocimiento til se encuentra las de la minera de datos, la cual a su vez se soportan en la utilizacin de reas afines como la estadstica, la inteligencia artificial y el reconocimiento de patrones entre otras. En el presente artculo se busca mostrar el uso de algunas tcnicas y algoritmos de la minera de datos en la determinacin de grupos de clasificacin de genes tomando como criterio los trminos de la Ontologa de Genes, especficamente aquellos trminos relacionados con las funciones moleculares.
Palabras Claves: Bioinformtica, Minera de Datos, Ontologa de Genes. Abstract

With the proliferation of big quantities of biological information resultant of the use of biotechnical methods, every time is necessary to use greater quantity of computer techniques that allow treat data in such a way that this information can be expressed in concise form. Inside the techniques of prosecution of information in search of useful knowledge are those of data mining, the one which in turn is supported in the use of similar areas as the statistic, the artificial intelligence and the recognition of patterns among others. This article is focused by show the use of some techniques and algorithms of data mining in the determination of groups of classification of genes taking as approach the terms of the Ontology of Genes, specifically those terms related with the molecular functions.
Keywords: bioinformatics, data mining, gene ontology. Daz Mario, Nstor. Colombia. Ingeniero de Sistemas. (Universidad Industrial de Santander). Docente de Tiempo Completo (Universidad del Cauca).1 Articulo Internacional. Lineas de investigacin: Algoritmia, Dinmica de Sistemas, Autmatas Celulares, Bases de Datos.: nediaz@unicauca.edu.co

86

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genmica y Bioinformtica Aplicada a un Caso de Escoba de bruja en el Cacao". Applied Genomics and Bioinformatics to the Witches' Broom Case in Cocoa.
Fernandes Formighieri, Eduardo. eduformi@gmail.com. Laboratrio de Genmica e Expresso, Universidade Estadual de Campinas. Brasil.

Resumen

La enfermedad de la escoba de bruja del cacao es causada por el hongo basidiomiceto Moniliophthora perniciosa, atacando las regiones meristemticas de la planta y reduciendo de forma acentuada la produccin de cacao. La enfermedad constituye el mayor problema fitopatolgico del estado de Baha. Los mtodos de control convencionales no funcionaron de forma satisfactoria, principalmente por el escaso conocimiento de la biologa bsica del hongo y su interaccin con el husped. En este contexto se creo el proyecto genoma de la escoba de bruja con le objetivo de coordinar un conjunto de investigaciones en diversas reas; tales como biologa celular, morfologa, bioqumica, fisiologa vegetal y gentica molecular. Los investigadores del proyecto cuentan con el apoyo de un banco de datos de secuencias de DNA genmico y de cDNA del hongo. El objetivo principal del proyecto es entender la enfermedad para poder realizar una intervencin tecnolgica en el combate al hongo. Se creo el Laboratorio de Bioinformtica del LGE. Este laboratorio adapta y desenvuelve herramientas computacionales usadas en este y en otros proyectos de genomas, recibe las secuencias brutas, realiza anotacin automtica e integra estos datos con experimentos de microarray. Una herramienta desarrollada es el Gene Projects, este programa permite realizar data mining y la anotacin de genes durante el proceso de secuenciamiento. En este seminario ser mostrada nuestra experiencia en la bsqueda de una solucin para este problema local, el desarrollo de una estructura de bioinformtica y algunos resultados obtenidos con la suma de estos esfuerzos.
Palabras clave: Moniliophthora perniciosa, fitopatolgico, microarray, data mining

Fernandes Formighieri, Eduardo. Brasil. Ingeniero Agrnomo (Escuela Superior de Agricultura Luiz de Queiroz, Universidad de Sao Paulo, Brasil). Magster en Ciencias (Centro de Energa Nuclear en Agricultura, Universidad de Sao Paulo). Doctorado en Bioinformtica (En ejecucin, Instituto de Biologa de la Universidad Estadual de Campinas). Lneas de investigacin: genmica funcional, fitopatologa molecular, ensamblaje y anotacin de genomas y ESTs.: eduformi@lge.ibi.unicamp.br / eduformi@gmail.com

87

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Mezcla de Expertos con Redes Bayesianas para la Prediccin de Genes: Una Evaluacin General Sobre 195 Secuencias de Mamiferos Mixture of Experts Using Bayesian Models for Eukaryotic Gene Prediction: a General Evaluation over 195 mammalian sequences
Garreta Luis E., Tischer, Irene, lgarreta, irene@eisc.univalle.edu.co Escuela de Ingeniera de Sistemas y Computacin Universidad del Valle

Resumen

Se presentan los resultados de la evaluacin general sobre 195 secuencias de mamferos con el enfoque de Mezcla de Expertos (ME), donde se combinan los resultados de cuatro algoritmos usados en prediccin de genes mediante tres modelos de Redes Bayesianas. Los resultados de esta evaluacin muestran que las ME tienden a mejorar las respuestas de los algoritmos siendo en muchos casos iguales o superiores a las del mejor algoritmo y mucho mejores que las del peor.
Palabras clave: Redes Bayesianas, prediccin de genes, Mezcla de expertos, algoritmos

Abstract

We present the results of a general evaluation over 195 mammalian sequences with the Mixture of Expert approach (ME), where the results of four algorithms of gene prediction were combined by means of three models of Bayesian networks. This general evaluation shows that the ME models tend to improve the results of the algorithms being in many cases equal or better to the best algorithm and much as to the worst algorithm.
Keywords: Bayesian Networks, gene prediction, mixture of experts, algorithms Garreta U., Luis E. Colombia. Ingeniero en Sistemas y Computacin (Pontificia Universidad Javeriana, Colombia). Magster en Ingeniera de Sistemas y Computacin (Universidad Del Valle, Colombia). Docente de la Universidad del Cauca. Lneas de investigacin: bioinformtica, inteligencia artificial y aprendizaje de mquina. 4 publicaciones nacionales.: igarreta@unicauca.edu.co

88

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Se presentan los resultados de la evaluacin general sobre 195 secuencias de mamferos con el enfoque de Mezcla de Expertos (ME), donde se combinan los resultados de cuatro algoritmos usados en prediccin de genes mediante tres modelos de Redes Bayesianas. Los resultados de esta evaluacin muestran que las ME tienden a mejorar las respuestas de los algoritmos siendo en muchos casos iguales o superiores a las del mejor algoritmo y mucho mejores que las del peor.
Abstract

We present the results of a general evaluation over 195 mammalian sequences with the Mixture of Expert approach (ME), where the results of four algorithms of gene prediction were combined by means of three models of Bayesian networks. This general evaluation shows that the ME models tend to improve the results of the algorithms being in many cases equal or better to the best algorithm and much as to the worst algorithm.

Mezcla de Expertos con Redes Bayesianas para la Prediccin de Genes: Una Evaluacin General Sobre 195 Secuencias de Mamiferos Introduccin

Las Mezclas de Expertos, conocidas tambin como ensamblaje de clasificadores o mtodos de combinacin de resultados (Pavlovic, 2001, Xu et al., 1992), buscan con base en los resultados de varios sistemas obtener una respuesta comn que logre mejorar las respuestas individuales. Actualmente este enfoque est siendo utilizado en muchas reas del conocimiento humano para ayudar a resolver problemas que no han sido resueltos completamente y para los cuales existen sistemas que de una forma u otra intentan hacerlo (Arschadi &Jurisica, 2005; Pavlovic et al., 2002;Collober et al., 2002; Dietterich, 2000, Xu et al., 1992). En el caso de la Prediccin de Genes a nivel bioinfortico, este es un problema que ha sido tratado ampliamente pero que an no est resuelto (Wang et al., 2004; Mathe, et al. 2002; Zhan, 2002; Pedersen, 2001; Stormo, 2004). Sobre este problema se han creado en estos ltimos aos mltiples herramientas, programas y algoritmos que intentan resolverlo o por lo menos aproximarse a una buena solucin (Burge&Karling, 2005; Majoros, 2004; Salzber et al., 1998). Por este motivo, la exploracin de nuevas soluciones es un problema interesante tanto desde el punto de vista computacional como desde el punto de vista bioinformtico. Por otro lado, las Redes Bayesianas (RB), son un enfoque de resolucin de problemas dentro del rea de la Inteligencia Artificial conocido como Aprendizaje de Mquina, que permiten modelar problemas de diversa ndole de forma simple y elegante a travs del uso del teorema de Bayes, de la teora de probabilidades y de la teora de grafos, en ciencias de la computacin (Pearl, 1991, Charniak, 2001).

89

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

En este artculo presentamos los primeros resultados obtenidos de la aplicacin de tres modelos de ME que usan RB para combinar las salidas de cuatro algoritmos usados en PG. Estos resultados nos muestran que las ME tienden a superar las respuestas de los algoritmos o por los menos a dar respuestas iguales a las del mas bueno y mucho mejores que las del peor algoritmo.

Materiales y Mtodos Mezclas de Expertos

Las ME buscan combinar resultados de distintos sistemas (expertos), para lograr mejores resultados (opiniones de los expertos) que los producidos en forma individual por los mismos sistemas. Se han planteado varios enfoques de ME, entre los ms comunes estn los de mayora de votos, la unin, la interseccin y los basados en la teora de Bayes (Dietterich, 2000) . El enfoque de mayora de votos busca una opinin comn de los expertos con base en lo que diga la mayora. El enfoque de unin (OR), toma como resultados finales la unin de todos los resultados de los expertos. El enfoque de la interseccin (AND) trabaja de forma antagonista al anterior, un tem estar dentro de la opinin combinada si este tem est dentro de las respuestas de cada uno de los expertos. Finalmente, el enfoque Bayesiano, trabaja con probabilidades y determina para cada experto un grado de creencia o probabilidad sobre la opinin de que un tem pertenezca a una clase u otra, la opinin combinada entonces, ser el producto de las probabilidades individuales de cada experto por cada clase y la de mayor valor ser la respuesta combinada (Xu, et al, 1992).
Algoritmos de Prediccin de Genes

Los algoritmos de PG utilizados como expertos fueron cuatro algoritmos usados por el programa PG Genezilla (Majoros, 2004) para predecir regiones codificantes (exones). Estos algoritmos fueron: Modelos de Markov Interpolado 3-Peridico (3PIMM), Modelos de Markov Interpolado (IMM), Modelo de Markov (MC) y el 3-Peridico (3P).
Modelos de Redes Bayesianas

Se seleccionaron tres modelos de RB utilizados por Pavlovic (2002) para predecir genes en la Drosophila. Los tres modelos de RB fueron Naive Bayes, Full Bayes y Modelos Ocultos de Markov (IHMM).
Conjuntos de Datos

Se utilizaron tres conjuntos de secuencias tanto para entrenamiento como para evaluacin. El primer conjunto de datos abarca 1500 secuencias de humanos (TIGR1500) altamente depuradas y ofrecidas por el TIGR (The Institute of Genome Research), el cul se utiliz para entrenar a cada uno de los expertos (TIGR, 2006). El segundo conjunto de datos se constituye de 400 secuencias de humanos (TIGR400) diferentes al anterior conjunto TIGR1500 y ofrecidas por el mismo instituto.

90

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Finalmente, el tercer conjunto de datos y el ms importante lo constituyen 195 secuencias de mamferos (HMR195), la mayora de humanos y que es bastante utilizado para evaluar la exactitud de PG (Rogic, et al, 2001). Este conjunto de pruebas lo utilizamos para evaluar la exactitud de las predicciones realizadas por los expertos y de las predicciones realizadas por cada una de las ME y de esta forma tener una medida de comparacin de la forma como las ME pueden mejorar las evaluaciones de los expertos.
Medidas de Exactitud

Para medir los resultados tanto de los expertos como de las ME, se utilizaron dos medidas muy comunes en PG (Burset&Guigo, 1996; Rogic et al, 2001). La primera fue la sensibilidad (Sn) y lo que mide es la proporcin de regiones codificantes correctamente predichas frente al nmero de regiones codificantes reales. Esto es:
Sn Nmero de regiones codificantes correctamente predichas Nmero de regiones codificante reales

La segunda medida fue la especificidad (Sp) que mide la proporcin de regiones codificantes correctas frente al total de predicciones realizadas. Esto es:
Sp Nmero de regiones codificantes correctamente predichas Total de regiones codificantes predichas

Mientras que la primera medida (Sn) nos muestra que tan bueno fue el PG a la hora de identificar regiones codificantes, la segunda (Sp) nos muestra que tanto predijo para lograr identificar esas regiones codificantes correctas. Adicional a estas medidas y para tener relacionas las dos medidas en una sola utilizamos el promedio de ambas (PRM). Esto es: Sn Sp PRM 2
Resultados y Discusin

La prueba que se realiz tuvo como objetivo determinar de forma general el comportamiento de las Mezclas de Expertos en la prediccin de genes. La hiptesis a comprobar fue la siguiente:

En el mejor de los casos las ME tienden a mejorar la prediccin de genes y en el peor de los casos sus resultados por lo menos sern superiores o iguales a los del peor experto.
Para resolver esta hiptesis se diseo el proceso de entrenamiento que se muestra en la figura 1. Se tomaron 1500 secuencias del primer conjunto de datos (TIGR1500) y se entrenaron con estas a cada uno de los expertos (etapa 1). Despus se evalu cada experto con las 400 secuencias del segundo conjunto de datos (TIGR400) (etapa 2) y los resultados de estas evaluaciones se tomaron como entrada para el entrenamiento de las ME (etapa 3). Finalmente se evaluaron cada ME y cada experto con las 195 secuencias del conjunto de datos de pruebas (HMR195) (etapa4).

91

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Fig. 1. Proceso de entrenamiento y evaluacin general de las Mezclas de Expertos Fuente: el autor).

Los resultados de esta primera evaluacin se presentan en la tabla 1. Los tres modelos de Mezcla de Expertos en la parte superior y los expertos que conforman estas mezclas en la parte inferior.
Tabla 1. Evaluacin global de las ME y de los expertos (Fuente: el autor)

Nivel Nucletidos Sn Naive Full IHM M Exp1 Exp2 Exp3 Exp4 Sp

de

Nivel de Exones Sp (Sn+Sp )/2 0.69 0.69 0.70


0.70

(Sn+S Sn p)/2

0.91 0.82 0.92 0.81

0.87 0.77 0.60 0.86 0.78 0.60 0.88 0.76 0.65


0.88 0.76 0.64

0.90 0.85 0.90 0.85 0.82 0.82 0.82 0.82 0.89 0.85

0.82 0.68 0.59 0.82 0.67 0.59 0.87 0.75 0.63

0.63 0.63 0.69

Los nmeros en negrilla indican una mejora con respecto a alguno o ms expertos. Se puede observar que cualquiera de los modelos de ME mejoran o por lo menos igualan la sensibilidad del mejor de los expertos, tanto a nivel de nucletidos como a nivel de exones. Los resultados tambin muestran que cada uno de los tres modelos de ME mejoran ms la sensibilidad que la especificidad, tendencia que tambin la tienen los expertos y por lo tanto nos sugiere la idea que los modelos de ME siguen un

92

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

comportamiento relacionado a la fuente de donde obtienen los datos para realizar las mezclas. Tanto a nivel de nucletidos como de exones, se aprecia que la ME realizada por Full Bayes mejora en sensibilidad en un 2% a la del mejor experto (0.92 frente a 0.90 del experto 1 y 0.78 frente a 0.76 del mismo experto), aunque se pierde algo de especificidad (un 4% tanto para nucletidos y exones). Sin embargo, aunque Full Bayes mejora en sensibilidad, en promedio ((Sn+Sp)/2) vemos que la mezcla realizada por IHMM es la mejor, tanto a nivel de nucletidos (88%) como a nivel de exones (70%) y logra igualar a los del mejor experto (Exp1). Adems, si comparamos las ME con otros enfoques muy comunes de combinacin de resultados como la unin (OR) y la interseccin (AND) (Murakami & Tagaki, 1998; Rogic et al., 2002), vemos (tabla 2) que en promedio las ME siguen presentando mejores resultados: 88% de IHMM frente a 86 del OR, a nivel de nucletidos y 70% frente a 69% del OR, a nivel de exones.

Tabla 2. Mezclas de Expertos frente a la unin e interseccin de resultados (Fuente: el autor)

Nivel de Nucletidos Sn Naive Full IHMM OR AND Sp


0.91 0.82 0.92 0.81

Nivel de Exones Sp (Sn+Sp)/2 0.69 0.69


0.70

(Sn+Sp)/2 Sn

0.87 0.77 0.60 0.86 0.78 0.60


0.88 0.76 0.65

0.90 0.85 0.92 0.81 0.80 0.88

0.86 0.78 0.60 0.84 0.65 0.62

0.69 0.63

Todos estos resultados nos confirman la hiptesis planteada para esta evaluacin general: Las ME tienden a mejorar la prediccin de genes y llegan a obtener resultados iguales a los del mejor experto (Exp1) e incluso, mucho mejores que los del peor experto (Exp3).

Bibliografa

Arschadi, N., Jurisica I. (2005). Data Mining for Case-Based Reasoning in HighDimensional Biological Domains. IEEE Trans. On Knowledge and Data Engineering. V17 N8. Burge, C. & Karlin, S. (2005). Prediction of complete gene structures in human genomic DNA. J. Mol. Biol. 268, 78-94 Collobert, R., Bengio, S., y Bengio, Y. (2002). A Parallel Mixture of SVMs for Very Large Scale Problems". Neural Computation.14, 1105-1114.

93

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Dietterich, T. (2000). Ensemble methods in machine learning. Kittler, J., & Roli, F. (Eds.), First International Workshop on Multiple Classifier Systems, Lecture Notes in Computer Science, pp. 1-15. Springer-Verlag. Pavlovic, V., Garg, A., & Kasif, S. (2002). A Bayesian framework for combining gene predictions. Bioinformatics. 18, 19-27. Charniak, E. (2001). Bayesian networks without tears. AI Magazine. 12(4), 50-63. Majoros, W. et al. (2004) .TIGRscan and GlimmerHMM: two open-source ab initio eukaryotic gene finders. Bioinformatics. 20, 2878-2879 Math, C., Sagot, M., Schiex, T. & Rouz, P. (2002). Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Research. 30, 4103-4117 Murakami, K. & Tagaki, T. (1998). Gene recognition by combination of several genefinding programs. Bioinformatics 14(8): 665-675. Pearl, J. (1991). Probabilistic Reasoning in intelligent System: Networks of Plausible Inference. San Mateo, CA: Morgan Kaufmann Publishers, 1988. Pedersen, J. (2001). Progress Report: Comparative Gene Finding. University of Aarhus, Dinamarca. Rogic, S., Ouellette, B.F.F., and Mackworth, A.K. (2002). Improving gene recognition accuracy by combining predictions from two gene-finding programs. Bioinformatics. 18: 1034-1045. Rogic, S., Mackworth,A.K. and Ouellette, B.F. F. (2001). Evaluation of gene finding programs on mammalian sequences. Genome Res. 11, 817-832. TIGR, The Institute of Genome Research. Disponible en: http://www.tigr.org/software. (ltima visita: Oct, 2006) Stormo G. (2000) . Gene-finding approaches for eukaryotes. Genome Res. 10:394-397 (2000). Salzberg, S., Delcher,A., Fasman,K. & Henderson,J. A Decision. (1998). A Decision Tree System for Finding Genes in DNA. Journal of Computational Biology. 5:4 667680 Wang Z, Chen Y, Li Y. "A brief review of computational gene prediction methods." Xu, L., Krzyzak, A, & Suen, Y. (1992). Methods of cobining multiple classifiers and their applications in handwritten character recognition. IEEE Transactions on System, Man and Cybernetics, 22(3):418-435 Zhang, M. (2002) . Computational Prediction of Eukaryotic Protein-Coding Genes. Nature Genetics. 3: 698-709.

94

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Infectmica. Infectomics
Garcia, Felipe fgarcia@colciencias.gov.co Director de Colciencias Colombia

Resumen

El Dr. Garcia dict una conferencia acerca de la infectmica, disciplina que estudia las bases moleculares de la interaccin hospedero-parsito va la biologa de sistemas. Adicionalmente, el Dr. Garcia anuci durante el evento la bsqueda de recursos para abrir una convocatoria para la creacin de un Centro de Excelencia en Metagenmica y Bioinformtica. En efecto, dicha convocatoria fue abierta a finales de 2006 con fecha de cierre para el 28 de Marzo de 2007. La comunidad cientfica y acadmica participante en el presente Seminario, quien trabaja en biologa molecular, microbiologa, ecologa, genmica, bioinformtica, y disciplinas a fines, agradecen al Dr. Garcia por el cumplimiento de dicho anuncio.

95

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

De Donde Viene la Inmunolgia, Adonde va? Del Linfocito al Linfochip. Where from did Immunology comes, where do it goes? From the Lymphocyte to the Lymphoship
Klinger, Julio C juceklin@msn.com Universidad del Cauca Colombia

Resumen

Inmunolgica naci como ciencia moderna con la vacuna contra la viruela de Eduard Jenner en el siglo XVIII, que hizo pensar que existir algo que era capaz de defender el cuerpo de enfermedad. Este concepto se afianzo con el descubrimiento de las bacterias en 1870 por Pasteur y Koch, hacia principios del siglo 20 se pensaba que el sistema inmune estaba compuesto por solo anticuerpos que eran producidos por los linfocitos. En los 50`s y 60`s la inmunidad celular se desarrollo gracias a los trabajos de Mackanes y de Miller que descubrieron que los linfocitos provenientes del timo eran esenciales para defensa contra grmenes intracelulares. Con el descubrimiento de los cultivos celulares y mas de 200 citoquinas fue evidente que los inmunecitos se comunican entre si y nace el concepto de inmunoregulacin. Desde ah, se han desarrollado muchos mtodos para estudiar el sistema inmune en salud y enfermedad, gracias a los avances en inmunolgica tales como los anticuerpos monoclonales, en biologa molecular tales como PCR y en las ciencias fsicas con las fluorescencias, citometra de flujo y computadores que hace posible explorar el sistema inmune en gran detalle molecular La evolucin en inmunolgica es tan rpida y grande que ser exponencial con el advenimiento de la tecnologa de micro arreglos que permite explorar identificar miles de genes expresados en un mismo tiempo.
Palabras clave: Inmunolgia, anticuerpos, citometra de flujo, citoquinas, sistema inmune, inmunoregulacin Abstract

Immunology as modern science was born in the XVIII century with Edgard Jerne antivariola vaccine, that induced to think that something with memory is able to defend the body, that principle was more thought with the discovery of germens by Pasteur and Koch in 1870, at the beginning of the XX century the thinking humoral immunology from Erlich was prevalent: people thought that the immune system was composed by cells that produce just antibodies. In the 50`s and 60`s. The cellular immunology was evidenced by Mackanes and Miller, done by cells that come from the timus useful for fighting intracellular germens. In the seventies with the discovery cellular cultures and more than 200 cytokines it was clear that the immunocytes communicate among them, and the concept of immune regulation came up. From there many methods has been developed to study the immune function in health and disease, thanks to the advances in immunology such as monoclonal antibodies, molecular biology such as PCR and physical sciences such as flowcytometry, fluorescence and computers, today is possible

96

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

to study in fine detail all the components of the immune system. The evolution is too great and fast in immunology that promise be more exponential with the microarray technology that let to see the expression of thousands of genes at the same time.
Keywords: Immunology, antibodies, flowcytometry, cytokines, immune system, immune regulation Klnger, Julio Csar. MD Especialista en Medicina Interna (Universidad del Cauca & Magster en Inmunologa & Microbiologa University of Louisville (Ky, USA), Especialista en Citometra de Flujo (Laboratorios Becton Dickinson, San Jos, Ca, USA). Laboratorio de Investigaciones Inmunolgicas e Infecciosas. Depto de Medicina Interna. Facultad Ciencias de la Salud. Universidad del Cauca. E mail: inmunocauc@yahoo.com

97

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Cadenas de Citokinas, Caos, Complejidad y Polimorfismo Gentico. Cytokines Chaos and Complexity: Immunoregulation by cytokines and Genetic Polymorphism.
Klinger, Julio C. juceklin@msn.com Universidad del Cauca Colombia

Abstract

Since 1970 it has been identified more than 200 cytokines, produced during immune activation, act like growth factors and are intercellular signals with pleotrophyc and redundant functions, are essential in health and disease, performing immune regulation, embryogenesis, bone modeling and genesis, wound healing, tissue degeneration and regeneration, among many actions. They act in a paracrine, autocrine and yuxtacrine fashion, the ones produced by lymphocytes are lymphokines and by monocytes monokines. Among the complexity and redundancy it is possible to define 6 classes of cytokines by their function 1. Innate cytokines: divided into: pro-inflammatory (IL-1, IL-6, TNF-, IL-8, IL-12, IL15, IL-18, IFN- and , and anti-inflammatory (IL-10 and TGF-) 2. TH1 IFN-, IL-2 and TNF- act cellular immunity 3. TH2 Humoral immunity 4. THO is the mixture of TH1 and TH2 cytokines 5. TH3 lymphocytes producing IL-10 and TGF- 6. Cytokines with extra immune functions. The excess of pro-inflammatory cytokines induces complications as: septic shock, multiple organic dysfunction and cachexia, while the excess of ant-inflammatory cytokines is associated with immune deficiency. TH1, TH2 and TH3 cytokines influence the development of infectious diseases, cancer allergy and autoimmunity; if the chosen of cytokines is not appropriate the antigens are not destroyed and persist in chronic inflammation with bad consequences as fibrosis, cancer and autoimmunity. Small number of specific TH3 cells does tolerance and many clones of them cause immunodeficiency. The immune regulation by cytokines is influenced by genetic polymorphism that make that some individuals react stronger or little with the same antigen.
Keywords: Lymphocytes, lymphokines, cytokynes, inmune activation, genetic polymorphism, cellular immunity Klnger, Julio Csar. MD Especialista en Medicina Interna (Universidad del Cauca & Magster en Inmunologa & Microbiologa University of Louisville (Ky, USA), Especialista en Citometra de Flujo (Laboratorios Becton Dickinson, San Jos, Ca, USA). Laboratorio de Investigaciones Inmunolgicas e Infecciosas. Depto de Medicina Interna. Facultad Ciencias de la Salud. Universidad del Cauca. E mail: inmunocauc@yahoo.com

98

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Una Nueva Aproximacin para el Modelaje y Prediccin de la Estructura Tridimensional de Protenas. A New Approach for Modeling and Predicting the 3D Protein Structure.
Lareo, Leonardo R. Pontificia Universidad Javeriana Facultad de Ciencias Departamento de Nutricin y Bioqumica Bioqumica Computacional y Estructural y Bioinformtica l.lareo@javeriana.edu.co

Resumen

El modelaje de la estructura tridimensional proteica sigue siendo uno de los problemas permanentes de la biologa estructural. En el este trabajo se presenta un algoritmo, denominado de rompecabezas, basado en la identificacin de patrones identificados en la informacin existente en todas las protenas que cuentan con estructura experimentalmente determinada. Con base en estos patrones identificados para los plegamientos mayores, es decir hlices y pliegues, y la presencia de pequeos motivos estructurales fue posible proponer que los componentes de las protenas sean los plegamientos mayores, que dan cuenta de aproximadamente un 50% de la configuracin estructural, los pequeos motivos estructurales que resultaron ser del orden de un 25% del total de la secuencia y un 25% restante al que se le llam regiones de baja estructuracin o regiones no estructuradas y que son parte de la antigua denominacin de enrollamientos al azar. Las regiones bien estructuradas es decir los plegamientos mayores y los pequeos motivos estructurales se pueden modelar con base en homologas de segmentos con las estructuras conocidas quedando as por modelar de novo solo las regiones de baja estructuracin. Esto se puede hacer con base en dinmica molecular restringida ya sea clsica o desde primeros principios. Los modelos generados por este algoritmo han mostrado una alta calidad cuando se los compara con datos experimentalmente conocidos.
Palabras clave: modelaje, algoritmo, estructura tridimensional, plegamientos mayores, pequeos motivos estructurales, regiones de baja estructuracin. Abstract

The three-dimensional modeling of protein structure is still now an open problem of structural biology. In this work is presented a proposal based on an algorithm named puzzle-like algorithm based in some structural patterns identified in all the protein structural knowledge. Based in these patterns found in major folding configurations, that is helix and strands, that represents about half of the total sequence of any protein, the presence of the small structural motifs representing about a quarter of the total sequence and the remnant part of the sequence named here as low structured regions or unstructured regions correspond to the previously known as random coils. The well structured regions that are helix, strand and small structural motifs can be modeled by

99

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

homology of known segments. This fact leaves to be modeled de novo only to the unstructured regions. This can be done by restricted molecular dynamics by classical models or by models of first principles. The models generated with method reports a high quality when it is compared with experimental data.
Key words: modeling, algorithm, three-dimensional structure, major folding patterns, small structural motifs, low structured regions. Lareo, Leonardo R. Colombia. Bilogo (Pontificia Universidad Javeriana, Colombia). Doctorado (Pontificia Universidad Javeriana, Colombia). Profesor Bioqumica Computacional y Estructural y Bioinformtica Facultad de Ciencias Pontificia Universidad Javeriana. Ms de 40 publicaciones nacionales e internacionales. Lneas de investigacin: biologa molecular computacional, en especial los receptores de glutamato.: l.lareo@javeriana.edu.co

100

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genmica del Receptor Ionotrpico de Glutamato Activado por N-Metil-DAspartato. Ionotropic Glutamate Receptor Activated by N-Methyl-D-Aspartate Genomics.
Lareo, Leonardo R. l.lareo@javeriana.edu.co Pontificia Universidad Javeriana Facultad de Ciencias Departamento de Nutricin y Bioqumica Bioqumica Computacional y Estructural y Bioinformtica

Resumen

El receptor ionotrpico de glutamato activado por N-metil-D-aspartato es el ms abundante receptor postsinptico de mayor neurotransmisor excitador, el glutamato. Participa activamente en los procesos de aprendizaje y memoria, as como en otros muchos procesos normales, patolgicos y neurosiquitricos. Se lo ha postulado como la molcula clave para la formacin de la conciencia en los organismos superiores en especial el hombre. Este complejo macromolecular multiheteromrico esta constituido de tres tipos diferentes de subunidades. De estas existen 8 isoformas del tipo NR1, 4 formas del tipo NR2 y dos formas del tipo NR3. Esto deja un total de 14 subunidades para formar desde trmeros hasta pentmeros sin que hasta la presente se conozca ni la estructura terciaria de sus subunidades, ni la cuaternaria ni la estequiometra de los complejos que constituyen el receptor y a la vez canal de cationes, en especial del calcio. Este complejo de relativo reciente conocimiento, fue clonado por primera vez en 1993, tiene aun grandes carencias en su conocimiento genmico esencial para avanzar en su comprensin y posible modulacin externa. En el este trabajo se presentan modelos computacionales para la anatoma de los siete genes que codifican para las 14 subunidades as como posible sitios de regulacin de su expresin y posibles sitios de splicing alternativo. Se presentan los resultados de los estudios experimentales sobre polimorfismos de algunos de estos genes en la poblacin colombiana y se explora la potencialidad de estos resultados.
Palabras clave: receptor, glutamato, genes, regiones reguladoras, sitios de splicing, subunidades. Abstract

The ionotropic glutamate receptor activated by N-methyl-D-aspartate is the most abundant postsynaptic glutamatergic receptor of the glutamate the most significant excitatory neurotransmitter. These receptors play an important role in learning and memory processes and participate in other several normal neural processes as in pathologies and neuropsychiatry diseases. In addition a possible role in consciousness formation has been postulated. This macromolecular multiheteromeric complex is constituted from three to five subunits belong to three different types. From these are 8 isoforms belonging to the nR1 type subunits, 4 forms belonging to NR2 subunits and 2

101

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

constitutes the NR3 subunits type. Still now is not known the three dimensional structure of any subunit neither their quaternary or stoichiometry of the complexes. These macromolecular complexes are of relative recent knowledge; only in 1993 was cloned for first time. Still now are big gap in the genomic knowledge of this macromolecule essential for the understanding and possible modulation of its activity. In this work some computational generated genes anatomy, alternative splicing sites and regulatory regions is presented. In addition the data found for polymorphism in Colombian populations are presented.
Keywords: receptor, glutamate, genes, regulating regions, alternative splicing, subunits. Lareo, Leonardo R. Colombia. Bilogo (Pontificia Universidad Javeriana, Colombia). Doctorado (Pontificia Universidad Javeriana, Colombia). Profesor Bioqumica Computacional y Estructural y Bioinformtica Facultad de Ciencias Pontificia Universidad Javeriana. Ms de 40 publicaciones nacionales e internacionales. Lneas de investigacin: biologa molecular computacional, en especial los receptores de glutamato.:llareo@javeriana.edu.co

102

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genomics and Bioinformatics in Plant-Pathogen Interaction. Genmica y Bioinformtica en Interacciones Planta-Patgeno.


Lpez, Camilo celopezc@unal.edu.co Universidad Nacional de Colombia If traditional biological research is likened to surveyors on foot, then genomics is best compared to mapping by satellite imaging Gutterson et Zhang, 2004.

Resumen

El desarrollo de estrategias de genmica (genmica estructural y funcional) ha permitido revolucionar nuestro entendimiento de los mecanismos moleculares que se desencadenan durante la respuestas de defensa de la plantas frente a la infeccin por microorganismos. Los anlisis de genomas de tres especies de plantas (Arabidopsis, arroz y Populus) han contribuido de manera significativa en el conocimiento acerca de la organizacin y numero de genes de resistencia presentes en las plantas. De igual manera la secuenciacin de microorganismos fitopatgenos ha aumentado el repertorio de genes candidatos implicados en virulencia y patogenicidad. Adems de las secuencias genmicas completas, las colecciones de ESTs han facilitado tener de manera rpida un repertorio importante de genes de plantas. La disposicin de genomas completamente secuenciados y las colecciones de ESTs han hecho posible el desarrollo de microarreglos para el estudio simultneo del perfil de expresin de cientos o miles de genes en respuesta al ataque de patgenos. En este manuscrito se discutirn como estos desarrollos tecnolgicos han contribuido en la elucidacin de las complejas redes gnicas y en la identificacin de la diversidad de protenas implicadas en la resistencia y susceptibilidad de las plantas a las infecciones.
Palabras claves: genmica, secuenciacin, interaccin planta-patgeno, microarreglos, bioinformtica, ESTs.

Abstract

The development of genomic approaches (structural and functional genomics) is revolutionizing the knowledge about the molecular mechanisms involved in plantpathogen interactions. The complete genomic sequences of three plant species (Arabidopsis, rice and Populus) have revealed the organization and number of resistance genes present in plants. Also, analysis of genomic data from phytopathogenic bacteria has remarkably expanded the repertoire of putative genes involved in virulence and pathogenicity. Large-scale sequencing of ESTs has contributed to obtain in a fast way an important collection of plant genes. The complete genome sequences and the ESTs collections have allowed the construction of microarrays which has been employed to study the gene expression profile of thousands of genes simultaneously in response to infection with plant pathogens. I will discuss how the development of these

103

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

new technologies has contributed to elucidate the complex regulatory networks and the diversity of proteins involved in resistance and susceptibility.
Keywords: genomics, bioinformatics, ESTs.

sequencing,

plant-pathogen

interaction,

microarrays,

Lpez C., Camilo E. Colombia. Bilogo (Universidad Nacional de Colombia). Ph.D. (Universit de Perpignan, Perpignan, France). Post-doctorado (Departament of Biology, UNC-Chapel Hill). Docente de la Universidad Nacional de Colombia. 10 publicaciones internacionales. 11 Conferencias internacionales (posters y presentaciones orales). Lneas de investigacin: genmica funcional y fitopatologa molecular.:celopezc@unal.edu.co

La Fitopatologa Molecular

Una de las metas de las Naciones Unidas para el 2015 es reducir la proporcin de la poblacin mundial que sufre de hambre en el mundo y cuyo ingreso es inferior a un dlar por da (1). Ms del 70% de la poblacin que se encuentra en la pobreza extrema vive en las reas rurales y depende de la agricultura como fuente de ingresos. Al menos el 10% de la produccin alimenticia mundial se pierde por las enfermedades de las plantas. La paradoja ms triste es que la mayor proporcin de las prdidas ocasionadas en los cultivos se encuentra en los pases en vas de desarrollo, los cuales basan su economa en la agricultura. Un mejor entendimiento de los mecanismos moleculares que emplean las plantas para defenderse de los patgenos permitir el desarrollo de mejores alternativas para el control de las enfermedades lo cual contribuir de alguna manera a la reduccin del hambre y la pobreza en el mundo. Las plantas estn sometidas permanentemente al contacto con diferentes tipos de microorganismos como virus, bacterias, hongos y nematodos. Sin embargo, solo una relativa pequea proporcin de ellos ocasionan enfermedades en las plantas (2). Para prevenir las enfermedades, las plantas han desarrollado un sistema inmune innato activo formado bsicamente por dos ramas mayores, las cuales median la proteccin contra patgenos no-hospederos y hospederos. La primera rama, conocida tambin como sistema de defensa basal (no hospedero) es activada a travs del reconocimiento de estructuras microbianas conservadas llamadas MAMPs (Microbial-Associated Molecular Patterns) (3). Este reconocimiento es mediado por varios receptores-MAMPs localizados en la membrana plasmtica. A pesar de la activacin de la defensa basal algunos fitopatogenos son capaces de colonizar y provocar enfermedad en varias especies de plantas al inhibir la activacin de la defensa basal (4). Las bacterias fitopatognicas logran hacer esto al inyectar protenas efectoras al interior de las clulas de la planta a travs de un sistema de secrecin conservado denominado sistema de secrecin tipo tres (T3SS Type three secretion system). El T3SS es codificado por un cluster conservado de genes llamados hrp (hypersensitive response and pathogenicity) (5). Los efectores pueden actuar en sinergia, tener interacciones epistticas y/o ser

104

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

requeridos solamente en ciertas interacciones planta-patgeno particulares (6). Sin embargo, para contraatacar, las plantas han evolucionado una segunda rama de inmunidad que depende del reconocimiento de los efectores mediado por las protenas de resistencia (R). En el caso de una interaccion incompatible (resistencia) los efectores reconocidos por las proteinas R son llamadas proteinas de avirulencia (7). Despus del reconocimiento mediado por las protenas R o por receptores MAMPs, otros genes involucrados en la respuesta de defensa son activados (8). Dentro de los eventos que tienen lugar posterior a dicho reconocimiento se encuentra la respuesta hipersensible o HR (hypersensitive response) que es un tipo de muerte celular programada cuyo objetivo es restringir la multiplicacin del patgeno (8). Otra serie de eventos tienen lugar tales como el estallido oxidativo mediado por especies de oxigeno reactivas, la activacin de varias protenas kinasas, el flujo de iones y la activacin de genes que codifican protenas con actividad antimicrobiana (9). Una vez que se ha activado la respuesta de defensa de manera local, la planta es capaz de protegerse de posteriores infecciones por otro tipo de patgenos. Este fenmeno es conocido como SAR (Systemic Acquired Resistance). Si una planta fue capaz de activar las respuestas de defensa frente a una bacteria particular, sta tendr una inmunidad frente al ataque de un amplio espectro de patgenos tales como virus, hongos u otras especies de bacterias, aun si la planta no posee los genes R correspondientes y aun si esta segunda infeccin ocurre en regiones distantes al sitio de la primera infeccin. Este tipo de inmunidad se mantiene por semanas, meses o incluso durante toda la vida de la planta (2).
La era omics

Actualmente la biologa se esta moviendo hacia una nueva era en la cual se han desarrollado estrategias y herramientas que permiten experimentos a gran escala contribuyendo a una visin comprensiva de los fenmenos biolgicos a una escala nunca antes imaginada. Un nuevo cambio en los paradigmas de investigacin se esta presentando en el desarrollo cientfico, pasando del estudio descriptivo a nuevos enfoques funcionales. El desarrollo de la genmica apoyada de la bioinformtica ha abierto nuevas oportunidades para la generacin de conocimiento dentro de las diferentes reas de la biologa y la fitopatologa molecular no es la excepcin. La genmica implica el descubrimiento y estudio de un gran nmero de genes de manera simultanea a la escala del genoma completo. Se han definido tres reas interrelacionadas: genmica estructural (genomics), genmica comparativa y genmica funcional, la cual implica reas que se han conocido como transcriptomics, proteomics y ms recientemente metabolomics. La genmica estructural concierne a la determinacin de la estructura del genoma a nivel de secuencia. La genmica comparativa se focaliza en las bases de las diferencias moleculares entre organismos de diferentes niveles taxonmicos, mientras que la genmica funcional busca establecer la funcin de los genes a gran escala (varios genes de manera simultnea) (10).
Secuenciacin de genomas

Los avances en la secuenciacin y su automatizacin como tambin el desarrollo de algoritmos computacionales han revolucionado la capacidad de generar y analizar inmensas cantidades de datos de secuencia de ADN. La secuencia completa de genomas

105

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

de microorganismos ha logrado ser determinada, as como tambin de organismos modelos animales (levaduras, C. elegans, ratn e incluso el hombre) y en plantas (Arabidopsis, arroz y Populus). Dentro de los microorganismos cuya secuencia genmica ha logrado ser determinada se encuentran varios que son patgenos de plantas. El primer microorganismo fitopatognico en ser secuenciado fue Xylella fastidiosa, llevado a cabo por Brasil (11). Xylella es una bacteria que ha ocasionado graves prdidas en los cultivos de ctricos en varios pases del mundo. Poco tiempo despus fueron reportadas las secuencias del genoma de otros microorganismos fitopatogenos tales como Pseudomonas syringae (12), varias especies del grupo de Xanthomonas (13) y Ralstonia (14). Los anlisis de los datos genmicos de estas bacterias fitopatognicas han expandido de manera significativa el repertorio de genes que pueden estar implicados en patogenicidad y en la capacidad infectiva en las plantas. Dentro de estos genes se encuentran aquellos que codifican para protenas de adhesin, fitotoxinas, resistencia al estrs oxidativo, degradacin de la pared celular y produccin e inyeccin de protenas efectoras al interior de las clulas vegetales. En trminos generales el repertorio de genes destinados a funciones de patogenicidad en estas bacterias esta alrededor del 6-10% (15). El anlisis de la secuencia del genoma de plantas como Arabidopsis, arroz y Populus ha permitido obtener informacin importante acerca del nmero y organizacin de genes implicados en la resistencia. Previos estudios han revelado que la mayora de genes R poseen una estructura comn, no obstante conferir resistencia a patgenos muy dismiles. El grupo de protenas de resistencia ms comn presenta en la regin central un dominio de unin a nucletido (NBS, Nucleotide-Binding Site), en el extremo Cterminal un dominio de repeticiones ricas en leucinas (LRR, Leucine Rich Repeat) y en la regin N-terminal ya sea un dominio TIR o un dominio CC (coiled coil), denominados entonces TNL o CNL respectivamente (7). En Arabidopsis se ha estimado que existen 85 secuencias de tipo TNL distribuidas en 64 loci y 36 secuencias de tipo CNL repartidas en 30 loci. Adems se presentan 15 secuencias de tipo TIR-NBS que no poseen dominios LRR. Se ha logrado identificar adicionalmente 2 secuencias de tipo TNL que poseen un dominio WRKY dentro de las cuales se encuentra el gen RRS1. La mayora (46) de estas secuencias estn como singletones, 50 se encuentran formando parejas y 21 se encuentran formando 7 clusters. Sin embargo el nmero preciso de este tipo de secuencias depende de la calidad del sistema de anotacin de los genes. Tambin los anlisis de secuencias del genoma completo han permitido identificar la presencia de posibles genes R truncados con varios codones de parada. Secuencias de tipo LRRkinasas han sido igualmente identificadas en el genoma de Arabidopsis, de las cuales existen 174, sin embargo solo para una de ellas, la correspondiente al gen FLS2, se le ha demostrado una funcin en resistencia. En el genoma de Arabidopsis existen adems 860 genes que presentan un dominio STK de las cuales 15 muestran ms de 50 % de identidad con el gen de resistencia Pto. En Arabidopsis existen regiones que presentan una gran densidad de genes de tipo NBS-LRR principalmente en los cromosomas I, IV y V. En el cromosoma IV existen dos grandes clusters, uno de los cuales contiene los miembros de la familia RPP5. En el cromosoma V en una regin de solo 4.5 Mb existen ms de 30 secuencias de tipo NBS-LRR (16).

106

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El otro genoma vegetal que ha logrado ser secuenciado completamente es el de arroz. En arroz se ha logrado identificar aproximadamente 600 secuencias de tipo CNL pero los genes de tipo TNL estn completamente ausentes en el genoma de arroz y quizs en todas las especies de cereales. Si bien existen algunas secuencias que presentan el dominio TIR estas secuencias no estn acompaadas por el dominio LRR. Aproximadamente 450 genes en arroz codifican protenas con dominios LRR extracelulares, de los cuales la mitad de ellos posee adems un dominio kinasa en el extremo C-terminal (17). En Populus la familia de genes que codifican para protenas NBS es una de las ms grandes con 399 miembros. En esta planta se encuentran 64 secuencias de tipo TNL, 10 secuencias TN que faltan del dominio LRR, 233 genes de tipo CNL y 17 secuencias de tipo TN que presentan dominios NBS o TIR adicionales y que no haban sido descritos previamente: TNLT, TNLN y TCNL. La mayora de los genes NBS-LRR en Populus (65%) se presenta bajo la forma de singletones (18).
Genmica Funcional Coleccin de ESTs

La automatizacin y la reduccin en los costos de secuenciacin han aumentado la posibilidad de secuenciar genomas enteros. Sin embargo, dada la complejidad de los genomas de plantas es muy poco probable que en un futuro cercano se cuente con informacin de un gran nmero de genomas de plantas completamente secuenciados. Una alternativa ms viable para obtener el repertorio de los genes de un organismo es a travs de la generacin de una coleccin de ESTs. Los ESTs son fragmentos cortos de ADN generados a partir de la secuenciacin de uno o ambos extremos de los clones de una librera de ADNc (ADN complementario). Los ESTs representan fragmentos de un gen expresado en ciertas condiciones (19). Las bases de datos de ESTs estn en continuo y rpido crecimiento y se constituyen en una herramienta muy til para el anlisis de genes. Las colecciones de ESTs poseen una amplia gama de aplicaciones tales como el descubrimiento y aislamiento rpido de nuevos genes, por ejemplo de genes implicados en la resistencia. En arroz, yuca y caa de azcar, a partir de las colecciones de ESTs se han identificado varios genes que presentan similitud con genes de tipo NBS-LRR y con otros genes previamente conocidos implicados en la resistencia y defensa de las plantas a los patgenos (20, 21, 22). Los anlisis comparativos del numero de ESTs para un gen particular presente en diferentes libreras de ADNc permite realizar una anlisis de expresin gnica diferencial in silico, tal como lo ha demostrado el trabajo de Ronning et al. quienes comparando la frecuencia de ESTs provenientes de libreras de ADNc de papa sanas e infectadas con Phytophtora infestans pudieron identificar varios genes que son inducidos en respuesta al patgeno y que muy probablemente estn implicados en la resistencia (23).
Microarreglos de ADN

El acceso a informacin masiva de secuencias genmicas y de colecciones de ESTs ha permitido la elaboracin de microarreglos de ADN, los cuales abren la va para el anlisis simultaneo de un gran numero de genes, incluso de la totalidad del genoma. Existen dos formatos de microarreglos, los microarreglos de oligos y los de ADN. En el primer caso, oligonucletidos complementarios a cada gen son sintetizados directamente

107

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

sobre las lminas de vidrio por un proceso de fotolitografia. Este tipo de microarreglos son conocidos como GenChip. Para la fabricacin de estos chips es necesario conocer la secuencia completa del genoma para as poder disear cada uno de los oligonucletidos correspondientes a cada gen. En el otro tipo de microarreglos muestras de ADN que pueden ser en la mayora de los casos ADNc son depositados en las laminas de vidrio a travs de robots. Este tipo de microarreglos son mucho ms flexibles por cuanto pueden ser construidos a partir de clones de ADN annimos (cuya secuencia no se conoce), de clones de libreras de ADNc u obtenidos a partir de libreras sustractivas o de libreras genmicas (24). En cualquier caso, el principio de hibridacin de los microarreglos es similar. Los microarreglos son hibridizados simultneamente con dos sondas fluorescentes de ADNc en la cual los ARNm correspondientes han sido extrados de dos condiciones correspondientes en las que se busca comparar la expresin gnica diferencial. La incorporacin del flurocromo se puede realizar durante la sntesis de ADNc. Despus de hibridacin y lavados la fluorescencia es captada a travs de un scanner y la seal obtenida es considerada como una representacin del valor de la expresin del gen en una muestra determinada. En plantas las aplicaciones de los microarreglos han sido extensas y en fitopatologa han logrado dar luces sobre los mecanismos moleculares de la expresin de los genes en respuesta a las infecciones por patgenos. Los anlisis del transcriptoma de Arabidopsis empleando 14 diferentes condiciones que inducen o reprimen SAR, permitieron identificar un cluster de 45 genes que son inducidos durante la SAR y en el cual se encuentra el gen PR-1 el cual es un gen marcador de la SAR. En este cluster de genes tambin se encontraban PR-4, GST (Glutation-S-Transferasa) y PerC (peroxidasa C). El anlisis de las secuencias correspondiente al promotor disponible para 26 de los genes presentes en este cluster permiti la identificacin de un sitio de unin para los factores de transcripcin WRKY, llamado cajas W. Los WRKY son una familia de factores de transcripcin presentes exclusivamente en plantas y estn implicados en las respuestas a estrs y al ataque de patgenos. Sorprendentemente el elemento que es reconocido por los factores de transcripcin de tipo TGA estaba ausente en el anlisis de las secuencia de estos promotores sugiriendo que este tipo de factores transcripcionales no constituyen un regulador comn de los genes que responden a la SAR. Otros estudios han revelado la importancia de los factores de transcripcin WRKY no solo en la activacin de la respuesta SAR sino tambin en inducir las respuestas de defensa locales mediada por varios genes R (25). A partir tambin de anlisis del transcriptoma de Arabidopsis durante la respuesta SAR se logr determinar recientemente, que NPR1 adems de controlar la expresin de genes PR, tambin controla la expresin de genes implicados en la va secretora. Durante la SAR existe una masiva sntesis de protenas PR que van a las vacuolas y al apoplasto, razn por la cual la actividad basal de la va secretora no es suficiente para suplir estas necesidades y en consecuencia, debe existir una induccin de los genes implicados en esta va para asegurar el correcto plegamiento, modificacin y transporte de las protenas PR. Mutaciones en algunos de los genes de la va secretora disminuyeron la secrecin de protenas PR como PR-1 provocando que las plantas presentasen una resistencia reducida. Se demostr que NPR1 regula la expresin de los genes de la va de secrecin a travs de un nuevo elemento promotor designado TL1

108

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

(CTGAAGAAGAA). El factor de transcripcin implicado aun no se ha caracterizado pero es improbable que se trate de TGAs ya que estos factores de transcripcin no reconocen la secuencia TL1. Otro hecho que favorece esta hiptesis es el hecho de que plantas mutantes en TGAs si bien presentan una disminucin en la expresin de los genes PR, la expresin de los genes implicados en la va de secrecin no se ve alterada. Un mecanismo similar de induccin de expresin de genes de la va de secrecin ha sido tambin observado en mamferos en donde la maquinaria de secrecin es inducida en las clulas B antes de que se inicie la secrecin de los anticuerpos (26). Empleando un microarreglo de Arabidopsis que contena 2375 genes, Shenk et al. examinaron el patrn de la expresin gnica en plantas de Arabidopsis infectadas con el hongo Alternaria brassicicola o tratadas con molculas implicadas en la sealizacin de defensa tales como el acido saliclico (AS), metil jasmonato (MJ) o con etileno. Ms de 700 genes mostraron niveles de expresin diferentes a los del control. La comparacin de plantas sometidas a cada uno de estos cuatro tratamientos mostr que 126 genes (5%) fueron regulados de manera coordinada por vas de defensa sobrelapantes. El sobrelapamiento mas significativo se present entre el tratamiento con AS y MJ en donde existan 55 genes comunes. Esta evidencia contradice los supuestos anteriores que establecan un rol antagnico entre estas dos vas de sealizacin (27). El perfil de expresin de 8000 genes de Arabidopsis (aproximadamente 1/3 del contenido de genes total de esta planta) fue empleado para el estudio de la expresin gnica durante la interaccin de esta planta con Pseudomonas syringae. En este estudio se evalu una reaccin de resistencia mediada por interacciones gen por gen, una de susceptibilidad y tambin una reaccin de tipo no-hospedero infectando con el patgeno P. syringae pv. phaseolicola. Ms de 2000 genes cambiaron su nivel de expresin dentro de las nueve primeras horas de infeccin. Lo ms interesante de este estudio fue que demostr que los cambios en la expresin de los genes entre los diferentes tipos de interaccin son cualitativamente similares y las diferencias radican en la rapidez y en el nivel de induccin de los genes durante los diferentes tipos de interaccin (28).
Otras estrategias en genmica funcional

Las investigaciones hechas en el campo de la genmica han aportado un importante nmero de informacin sobre el genoma y los genes de las plantas. Sin embargo no se debe olvidar que la mayora de los genes identificados y las funciones propuestas para sus productos proteicos no son, por el momento, sino predicciones basadas sobre la comparacin de secuencia y la presencia de similitud con otras protenas ya caracterizadas. La elucidacin de la funcin, validada experimentalmente de cientos y miles de genes y de protenas virtuales representa el gran desafo de la investigacin en biologa molecular. La gentica inversa es uno de los medios empleados para validar la funcin de muchos genes. Esta estrategia se basa en la modificacin de la actividad de un gen, en particular por la inactivacin de su funcin. La mayora de estudios hechos en plantas se han basado en la insercin de elementos transponibles. Para varias especies existen colecciones de mutantes de insercin en los cuales la probabilidad de encontrar un gen inactivado por la insercin del transposon es bastante alta. Las colecciones de mutantes de Arabidopsis han sido muy importantes para identificar varios de los genes que son requeridos durante la va de sealizacin que se desencadena durante la respuesta de defensa. A travs del empleo de la coleccin de mutantes genes como EDS1, PAD4, NDR1 y varios otros han sido identificados, lo que ha permitido modelar una topologa de la va de transduccin de seales (29).

109

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Una segunda estrategia que permite disminuir la expresin de un gen particular se basa en el fenmeno de silenciamiento gnico postranscripcional (PTGS PostTranscriptional Gene Silencing). El PTGS es un fenmeno descrito inicialmente como un mecanismo de defensa de las plantas frente a las infecciones virales y que provoca la degradacin de una molcula de ARN a partir de la formacin de ARN de doble cadena (dsARN). Los dsARN son reconocidos por una ARNasa de tipo III llamada DICER, la cual produce ARN pequeos de 21-24nt (siARNs). Estos siARNs son incorporados dentro de un complejo multi-proteico denominado RISC (RNA-Induced Silencing Complexes). Dentro del complejo RISC una helicasa separa las dos cadenas de los siARNs, lo cual permite a RISC, por apareamiento de bases, reconocer las molculas de ARN blanco, las cuales son entonces degradadas. A partir del conocimiento generado sobre el mecanismo de PTGS se ha desarrollado la estrategia conocida con el nombre de VIGS (Virus Induced Gene Silencing). La tecnologa VIGS emplea un vector viral el cual puede contener un inserto no viral, que puede corresponder a un gen blanco cuya expresin va a ser silenciada. La inoculacin de plantas con este vector viral producir siARNs que son dirigidos contra el ARNm endgeno de la planta para degradarlo. El fenotipo observado en la planta infectada reflejar la perdida de la funcin en la protena codificada por dicho gen. La facilidad en construir vectores virales conteniendo diferentes genes y la posibilidad de infectar un alto numero de plantas permite estudiar de manera simultnea el efecto de la supresin de la expresin de un gen en el fenotipo de una planta, constituyndose as en una estrategia para la evaluacin funcional de un gran numero de genes de manera sencilla y rpida (30). Mas recientemente estrategias como Tilling (Targeting Induced Local Lesions in Genomes) se han aplicado para dilucidar la funcin de varios genes. En esta tcnica se generan plantas con mutaciones aleatorias y el ADN de ellas es extrado y mezclado en pools a partir de los cuales el gen de inters es amplificado. Si en dicha poblacin el gen esta mutado se observarn productos de PCR de dos tipos (silvestre y mutante), los cuales pueden ser detectados a travs de DHPLC (Denaturing High Performance Liquid Chromatography). La planta portando el gen mutado puede ser identificada y estudiada para establecer si existe un fenotipo asociado (31). Nuevas herramientas tales como proteomica y metabolomica se han venido desarrollando en los ltimos aos y aunque aun en su infancia, tienen un futuro prometedor para la asignacin funcional de los genes que ellos codifican.
Conclusiones

Actualmente estamos experimentando un periodo de rpido cambio en la forma de concebir los experimentos biolgicos y en la adquisicin de informacin relevante para la mejor comprensin de los procesos biolgicos. Hemos pasado de una poca que se centraba en la identificacin y manipulacin de genes individuales, a una caracterizada por el entendimiento global de los genes implicados en la resistencia. El empleo de estrategias a gran escala generar nuevas posibilidades para definir genes blanco y poder as manipularlos con el fin de obtener plantas con caractersticas de resistencia mejoradas.

110

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Bibliografa

1. Sanchez PA, Swaminathan MS. Public health. Cutting world hunger in half. Science 2005; 307, 357-359. 2. Baker B, Zambryski P, Staskawicz B, Dinesh-Kumar SP. Signaling in plant-microbe interactions. Science 1997; 276, 726-733. 3. Chisholm ST, Coaker G, Day B, Staskawicz BJ. Host-microbe interactions: shaping the evolution of the plant immune response. Cell 2006; 124, 803-14. 4. Mudgett BM. New insights to the function of phytopathogenic bacterial type III effectors in plants. Annu Rev Plant Biol 2005; 56, 509-31. 5. Alfano JR, Collmer A. Type III secretion system effector proteins, double agents in bacterial disease and plant defense. Annu Rev Phytopathol 2004; 42, 385-414. 6. Buttner D, Bonas U. Common infection strategies of plant and animal pathogenic bacteria. Curr Opin Plant Biol 2003; 6, 312-9. 7. Dangl JL, Jones J. Plant pathogens and integrated defense response to infection. Nature 2001; 411, 826833. 8. Hammond-Kosack KE, Jones JD. Resistance gene-dependent plant defense responses. Plant Cell 1996; 8, 1773-1791 9. Nimchuk Z, Eulgem T, Holt BF, Dangl JL. Recognition and response in the plant immune system. Annu Rev Genet 2003; 37, 579609. 10. Michelmore RW. The impact zone, genomics and breeding for durable disease resistance. Curr Opin Plant Biol 2003; 6, 397-404. 11. Simpson AJ, Reinach FC, Arruda P, Abreu FA, Acencio M, Alvarenga M, et al. The genome sequence of the plant pathogen Xylella fastidiosa. Nature 2000; 406, 151-157. 12. Buell CR, Joardar V, Lindeberg M, Selengut J, Paulsen IT, Gwinn ML, Dodson RJ, et al. The complete genome sequence of the Arabidopsis and tomato pathogen Pseudomonas syringae pv. tomato DC3000. Proc Natl Acad Sci USA 2003; 100, 1018110186. 13. da Silva AC, Ferro JA, Reinach FC, Farah CS, Furlan LR, Quaggio RB, et al. Comparison of the genomes of two Xanthomonas pathogens with differing host specificities. Nature 2002; 417, 459-463. 14. Salanoubat M, Genin S, Artiguenave F, Gouzy J, Mangenot S, Arlat M, et al. Genome sequence of the plant pathogen Ralstonia solanacearum. Nature 2002; 415, 497-502. 15. Puhler A, Arlat M, Becker A, Gottfert M, Morrissey JP, O' Gara F. What can bacterial genome research teach us about bacteria-plant interactions? Curr Opin Plant Biol 2004; 7,137-47. 16. Arabidopsis Genome Initiative. Analyses of the genome sequence of the lowering plant Arabidopsis thaliana. Nature 2000; 408, 796-815. 17. Goff SA, Ricke D, Lan TH, Presting G, Wang R, Dunn M, et al. A draft sequence of the rice genome Oryza sativa L. ssp. japonica. Science 2002; 296, 92-100.

111

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

18. Tuskan GA, DiFazio S, Jansson S, Bohlmann J, Grigoriev I, Hellsten U, et al. The Genome of Black Cottonwood, Populus trichocarpa (Torr. & Gray). Science 2006; 313, 1596-1604. 19. Rudd S. Expressed Sequence Tags, alternative or complement to whole genome sequences? Trends Plant Sci 2003; 8,321329. 20. Rossi M, Araujo PG, Paulet F, Garsmeur O, Dias VM, Chen H, et al. Genomic distribution and characterization of EST-derived resistance gene analogs (RGAs) in sugarcane. Mol Gen Genomics 2003; 269, 406419. 21. Lopez C, Jorge V, Piegu B, Mba C, Cortes D, Restrepo S, et al. A unigene catalogue of 5700 expressed genes in cassava. Plant Mol Biol 2004; 56, 541554. 22. Wang Z, Taramino G, Yang D, Liu G, Tingey SV, Miao GH, et al. Rice ESTs with disease-resistance gene- or defense-response gene like sequences mapped to regions containing major resistance genes or QTLs. Mol Genet Genomics 2001; 265, 302-310. 23. Ronning CM, Stegalkina SS, Ascenzi RA, Bougri O, Hart AL, Utterbach TR, et al. Comparative analyses of potato expressed sequence tag libraries. Plant Physiol 2003; 131, 419-29. 24. Zhu T. Global analysis of gene expression using GeneChip microarrays. Curr Opin Plant Biol 2003; 6,418-25. 25. Maleck K, Levine A, Eulgem T, Morgan A, Schmid J, Lawton KA, et al. The transcriptome of Arabidopsis thaliana during systemic acquired resistance. Nat Genet 2000; 26, 403-10. 26. Wang D, Weaver ND, Kesarwani M, Dong X. Induction of protein secretory pathway is required for systemic acquired resistance. Science 2005; 308, 1036-40. 27. Schenk PM, Kazan K, Wilson L, Anderson JP, Richmond T, Somerville Sh. Coordinated plant defense response in Arabidopsis revealed by miroarray analysis. Proc Natl Acad Sci USA 2000; 97, 11655-11660 28. Tao Y, Xie Z, Chen W, Glazebrook J, Chang HS, Han B, et al. Quantitative nature of Arabidopsis responses during compatible and incompatible interactions with the bacterial pathogen Pseudomonas syringae. Plant Cell 2003; 15, 317-30. 29. Glazebrook J. Genes controlling expression of defense responses in Arabidopsis2001 status. Curr Opin Plant Biol 2001; 4, 301-8. 30. Baulcombe DC. Fast forward genetics based on virus-induced gene silencing. Curr Opin Plant Biol 1999; 2, 109-13. 31. Till BJ, Colbert T, Tompa R, Enns LC, Codomo CA, Johnson JE, et al. Highthroughput TILLING for functional genomics. Methods Mol Biol 2003; 36, 20520.

112

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Yucomics: La Yuca Entra a la Era Genmica y Bioinformtica Yucomics: Cassava Enters To Genomics and Bioinformatics Era
Lpez, Camilo celopezc@unal.edu.co Departamento de Biologa, Universidad Nacional de Colombia

Resumen

La yuca (Manihot esculenta subsp. esculenta Crantz) es la base de la alimentacin de mas de 600 millones de personas en el mundo, principalmente de los pases de Amrica latina, frica y Asia. Uno de los principales factores que afectan la produccin de yuca en el mundo es el estrs bitico producido por patgenos vegetales. La bacteriosis vascular de la yuca, ocasionada por la bacteria Xanthomonas axonopodis pv. manihotis (Xam), es una de las principales enfermedades de este cultivo. Varios esfuerzos se han llevado a cabo para conocer la estructura y funcin de los genes implicados en la las respuestas de resistencia. Progresos significativos se han hecho en los ltimos aos con el desarrollo de herramientas de genmica y bioinformtica para mejorar el conocimiento sobre la estructura del genoma de la yuca y la funcin de los genes. Se presentar el desarrollo de una base de datos de ESTs obtenida a travs de la secuenciacin de 11954 clones de cDNA. Herramientas de bioinformtica nos permitieron agruparlos en un set de 5700 genes nicos. Algunos de estos ESTs muestran similitud con genes previamente reportados como implicados en mecanismos de defensa de las plantas a patgenos y se constituyen as en una fuente de genes de resistencia y de defensa candidatos. A partir de la coleccin de ESTs, nosotros construimos el primer microarray de yuca el cual fue empleado en el estudio de la cintica de expresin de los genes de yuca en respuesta a la infeccin por Xam. Un total de 199 genes fueron diferencialmente expresados, 126 inducidos y 73 reprimidos. Dentro de estos genes se encontraron genes implicados en procesos como el estrs oxidativo, la degradacin proteica y el refuerzo de la pared celular.
Palabras clave: yuca, resistencia, bacteriosis vascular, EST, microarreglos, genmica

Abstract

Cassava (Manihot esculenta subsp. esculenta Crantz) constitutes an essential component in the diet of about 600 million people in the world, notably in countries of Latin America, Africa and Asia. One of the most important factors constraining cassava production is the biotic stresses caused by plant pathogens. A major disease of this crop is cassava bacterial blight (CBB), caused by the pathogenic bacterium Xanthomonas axonopodis pv manihotis (Xam). Efforts are being conducted to gain insight about the structure and function of cassava genes involved in resistance. Significant progress has been made in the last years in the development of genomic and bioinformatics tools to increase our knowledge of the cassava genome structure and gene function. I will present the developing of a large cassava EST database through the sequencing of 11,954 cDNA clones. Bioinformatics tools allowed assembled them in a unigene set of

113

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

5,700 sequences. Some of the ESTs showed similarity to genes that are known to be involved in plant defense mechanisms and constitute a new source of candidate resistance and defense genes. Based on this information we constructed the first cassava microarray which was used to study the course-time response of cassava to Xam. Employing this microarray to study an incompatible reaction (resistance), 199 genes upand down-regulated genes were identified at different times after inoculation with Xam. Some of these genes showed similarity with genes involved in defense (including those for cell-wall metabolism, oxidative burst, and chitinases) and with pathogenesis-related (PR) genes. This information should help in the development of strategies for managing bacterial blight infection in cassava.
Keywords: cassava, resistance, cassava bacterial blight, EST, microarray, genomics. Lpez C., Camilo E. Colombia. Bilogo (Universidad Nacional de Colombia). Ph.D. (Universit de Perpignan, Perpignan, France). Post-doctorado (Departament of Biology, UNC-Chapel Hill). Docente de la Universidad Nacional de Colombia. 10 publicaciones internacionales. 11 Conferencias internacionales (posters y presentaciones orales). Lneas de investigacin: genmica funcional y fitopatologa molecular.:celopezc@unal.edu.co Yucomics: La Yuca Entra a la Era Genmica y Bioinformtica Introduction

Despus del arroz, el trigo y el maz, la yuca representa la fuente ms importante de caloras para la poblacin mundial (1). La yuca es cultivada en ms de 90 pases y constituye la base de la alimentacin diaria para ms de 600 millones de personas en el mundo. Se ha establecido que un aumento en la produccin de yuca puede ayudar a solucionar el problema de hambre en las regiones pobres donde ella puede ser cultivada (1). La mitad de los 16 millones de hectreas dedicadas al cultivo de la yuca se encuentran en frica, el 30% en Asia y el 20% en Amrica Latina (1). En Colombia la yuca es la principal fuente de ingresos para un gran porcentaje de pequeos campesinos. La yuca tambin es utilizada en alimentacin animal y como materia prima para el procesamiento industrial de numerosos productos derivados del almidn, como harinas y biocombustibles. Por otra parte, el cultivo de la yuca en Colombia puede tener una relevancia importante en las polticas de reemplazo de cultivos ilcitos, teniendo en cuenta el desarrollo que pueda alcanzar la industria de biocombustibles, especialmente en la zona de los llanos orientales. Las principales enfermedades que afectan la yuca y disminuyen su produccin son las enfermedades virales y bacterianas, las cuales pueden incluso amenazar la seguridad alimenticia en varios casos. La enfermedad del mosaico de la yuca (CMD, Cassava Mosaic Dissease) es causada por un complejo de geminivirus, el cual esta solo presente en frica. La bacteriosis vascular de la yuca o aublo bacteriano (CBB, Cassava Bacterial Blight) es una enfermedad endmica importante en Latinoamrica y frica. La bacteriosis vascular es causada por la bacteria Xanthomonas axonopodis pv. manihotis (Xam), un patgeno foliar y vascular (2). Las prdidas causadas por la bacteriosis pueden alcanzar incluso el 80 o 100% de la cosecha si las condiciones del

114

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

medio son favorables para su desarrollo y si no se adoptan practicas agronmicas y fitosanitarias adecuadas para su control (2). A pesar de que existen variedades resistentes, estas no poseen buenas cualidades culinarias y por esta razn no han sido adoptadas por los productores. La alternativa es poder desarrollar variedades resistentes que posean propiedades culinarias adecuadas para su comercializacin. El desarrollo de variedades resistentes mediante estrategias de mejoramiento convencional ha permitido elevar los niveles de resistencia en ciertos casos (3), sin embargo las caractersticas propias de la yuca, tales como su largo ciclo reproductivo, su naturaleza tetraploide y su alta heterocigocidad han dificultado la obtencin de mejores resultados. El empleo de las herramientas de biotecnologa (p. ej. transformacin) se constituye en una alternativa valiosa con el objetivo de generar variedades mejoradas de una manera eficaz y rpida. Sin embargo para esto se requiere un entendimiento de los mecanismos de resistencia de la yuca a la bacteriosis y la clonacin de genes de resistencia. En los ltimos aos se han realizado varios avances en este sentido. Actualmente existe un mapa gentico de yuca (4) el cual ha permitido la identificacin y ubicacin de varios QTLs (Quantitative Trait Loci) asociados a la resistencia (5,6). Varios genes de resistencia candidatos o RGCs (Resistance Gene Candidats), han sido identificados los cuales constituyen una herramienta importante en los programas de mejoramiento (p. ej. en la seleccin asistida por marcadores y como punto de partida para la clonacin de genes) (7). El desarrollo reciente de la genmica (secuenciacin de genomas enteros, desarrollo de colecciones de ESTs) ha permitido grandes avances en el entendimiento de los mecanismos moleculares de diferentes especies en respuesta a patgenos. Estos trabajos han permitido la construccin de microarreglos de ADN, los cuales han sido extensamente utilizados para estudiar el nivel de expresin de cientos o miles de genes (incluso del genoma entero) de manera simultnea como respuesta a una condicin o de un estadio de desarrollo particular. En este trabajo se presentan los recientes desarrollos realizados en el rea de genmica de yuca, con un nfasis particular en la resistencia a la bacteriosis vascular. Se describe el desarrollo de la coleccin de ESTs y como esta informacin ha sido utilizada para construir el primer microarreglo de yuca, el cual fue empleado para evaluar la expresin simultanea de 5700 genes en respuesta a la infeccin por Xam.
Desarrollo de una Coleccin de ESTs

Los ESTs son fragmentos cortos de ADN generados a partir de la secuenciacin de uno o ambos extremos de los clones de una librera de ADNc (ADN complementario). Los ESTs representan fragmentos de un gen expresado en ciertas condiciones (8). Para el desarrollo de la coleccin de ESTs en yuca, se emplearon cinco cultivares contrastantes en cuanto a caractersticas de resistencia a la bacteriosis (cultivares sensibles, tolerantes y resistentes) e igualmente en cuanto a su contenido de materia seca (almidn). En total se desarrollaron 12 libreras de ADNc (Tabla 1). Cuatro de estas libreras se obtuvieron por procedimientos estndar. Las restantes ocho libreras fueron sustractivas (9). La sustraccin se realiz por dos mtodos diferentes (DSC y SSH) utilizando ADNc obtenido a partir de material inoculado y material no inoculado. Un total de 11954 secuencias de alta calidad fueron generadas y varios anlisis bioinformticos se desarrollaron. El total de 11954 ESTs generados fueron ensamblados en un set unigen de 5700 secuencias nicas, comprendiendo un total de 1875 contigs (secuencias sobrelapantes, -9218 ESTs-) y 3825 singletones (9). Para realizar la

115

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

anotacin de los ESTs presentes en el set unigen se emple el esquema del consorcio Gene Ontology (10). Siguiendo este criterio fue posible asignar una categora funcional a 37% de los ESTs del set unigen, sobre la base de la similitud que presentaron estas secuencias con otras protenas presentes en la base de datos. Dentro de las funciones moleculares, las categoras mas representadas fueron la de unin a cidos nucleicos (10%) y la de las actividades hidrolasa y transferasa (9 y 6% respectivamente). En la categora de metabolismo se agruparon 977 secuencias y en la de crecimiento/mantenimiento celular 406 ESTs. Para identificar genes especficos de yuca, el set unigen fue comparado con la base de datos de ESTs de varias especies vegetales (Arabidopsis, soya, tomate, papa y Medicago) utilizando TBLASTX. El porcentaje de secuencias de yuca que no mostraron similitud con otros ESTs vari entre 21 y 27% segn la especie en comparacin. En total, 16% de las secuencies de yuca no presentaron similitud con ninguno de los productos proteicos predichos de las otras especies vegetales y pueden representar potenciales genes especficos de yuca. Sin embargo es necesario tener en cuenta que algunos de ellos pueden representar regiones no traducidas (UTR) o ser muy cortas para tener dominios que detecten similitud significativa con las protenas presentes en las bases de datos. Para tratar de identificar genes que pueden estar potencialmente implicados en la respuesta de defensa a la bacteriosis, se seleccionaron aquellos ESTs presentes nicamente en las libreras de ADNc inoculadas con Xam. Un total de 1613 secuencias fueron obtenidas. En general se presentaron pequeas diferencias entre los genes presentes en las diferentes variedades de yuca (resistentes MBra685, SG107-35- vs. Sensibles MCol1522-). Algunos de los ESTs en este grupo mostraron similitud con genes previamente implicados en la respuesta de defensa tales como genes de resistencia, factores de transcripcin de tipo WRKY, quitinasas, peroxidasas y kinasas entre otros. Un mayor porcentaje de secuencias (56%) que en el anlisis global no mostr similitud con las protenas presentes en las bases de datos. Las secuencias presentes nicamente en las libreras de ADNc inoculadas representan genes que potencialmente juegan un rol importante en la resistencia a la bacterioisis. Sin embargo, estudios de expresin mas detallados como RT-PCR o anlisis de microarreglos (ver mas adelante) permitirn comprobar su rol en la defensa (9).
Desarrollo del primer microarreglo de yuca

El desarrollo de una coleccin de ESTs constituye un gran recurso para el estudio de expresin global de genes. En particular, ESTs que son impresos sobre lminas de vidrio (microarreglos) han sido empleados para examinar la respuesta de cientos o miles de genes de manera simultnea. En plantas, los microarreglos de ADNc han sido usados para estudiar las respuestas frente al estrs abitico (11) y han mostrado ser de gran utilidad para revelar nuevos mecanismos en el estudio de interacciones plantasmicroorganismos (12). Nosotros aprovechamos la informacin generada a partir de la coleccin de ESTs de yuca para construir el primer microarreglo de yuca. Este microarreglo fue utilizado para estudiar los cambios en la expresin de los genes identificados a diferentes tiempos en el caso de una interaccin incompatible (resistencia) entre el cultivar MBra685 y la cepa de Xam CIO151. Para la construccin del microarreglo, insertos amplificados por PCR de cada uno de los 5700 clones representativos del set unigen fueron impresos en lminas de vidrio.

116

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Adicionalmente, un grupo de genes controles de tomate, papa y de humanos fueron impresos para evaluar la calidad de las hibridaciones. Para monitorear los cambios de expresin en los genes de yuca durante el ataque del patgeno, muestras de ARN prevenientes de tallos a cinco tiempos diferentes despus de la inoculacin fueron extrados y el ADNc correspondiente fue sintetizado utilizando Cy3 (muestras inoculadas) o Cy5 (muestras no inoculadas). Los tiempos post-inoculacin empleados fueron 12, 24 y 48 horas post-inoculacin (hpi) y 7 y 15 das post-inoculacin (dpi). Con el objetivo de aumentar la calidad y la consistencia en los datos de microarreglos nosotros usamos tres replicas biolgicas (ARNm extrados en tres fechas diferentes del ao) y para cada una de ellas realizamos 3 replicas tcnicas (3 hibridaciones diferentes, en una de las cuales se invirti el marcaje, Cy3 para muestras no inoculadas y Cy5 para muestras inoculadas) (13). Utilizando el programa SAM (14) para identificar genes expresados diferencialmente, nosotros encontramos 199 genes cuya expresin vario significativamente entre plantas inoculadas con el patgeno y plantas sanas. De estos 199 genes 123 mostraron una induccin y 73 de ellos fueron reprimidos. Varios genes fueron expresados diferencialmente durante el curso de la infeccin. La proporcin de genes diferencialmente expresados es baja y constante durante las primeras 48 hpi pero incrementa considerablemente a 7 dpi antes de disminuir a los 15 dpi. De los 199 genes expresados diferencialmente, 155 mostraron similitud con protenas conocidas. Algunas de estas codifican para protenas que han sido previamente reportadas como importantes en los mecanismos de defensa vegetal contra patgenos. Dentro de estas se encuentran protenas implicadas en el refuerzo de la pared celular, asociados con el estrs oxidativo (peroxidasas, peroxidasas cationicas y Glutation-S-transferasa), con la degradacin proteica (proteasas, ubiquitina), factores de trascripcin de respuesta al etileno, entre otros. Dentro de los genes que se encontraron reprimidos, se encontraron bsicamente genes que codifican para protenas involucradas en la fotosntesis (protena de unin a la clorofila a/b) (13). Para confirmar la validez de los resultados obtenidos por microarreglos, un grupo de genes diferencialmente expresados fueron estudiados mediante RT-PCR en tiempo real. El patrn de expresin (induccin o represin) fue conservado para todos los genes usando los dos mtodos, aunque el nivel de expresin fue siempre mayor mediante RTPCR (13).
El caso de La interaccin comptible (enfermedad)

Ocho de los genes que mostraron ser expresados diferencialmente por microarreglos en el caso de la reaccin incompatible fueron estudiados por RT-PCR en el caso de una reaccin compatible (enfermedad). Para esto se utiliz el cultivar MCol1522 el cual es sensible a la cepa de Xam CIO151. La mayora de ellos (6) fueron igualmente inducidos pero a un tiempo mas tardo, en la mayora de los casos solo 15 dpi. Los dos restantes mostraron una induccin similar tanto en el cultivar resistente como en el sensible pero solo a 7 dpi. Estos resultados demuestran a nivel molecular observaciones previas realizadas a nivel histoquimico que mostraron que las diferencias entre variedades resistentes y susceptibles en yuca estn determinadas por la rapidez en la cual las respuestas de defensa se activan, siendo ms rpidas en el caso de variedades resistentes (13). Resultados de microarreglos en el patosistema Arabidopsis-Pseudomonas han revelado de igual manera que la diferencia entre interacciones compatibles e

117

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

incompatibles esta determinada no por el tipo de genes que son encendidos sino por la rapidez y magnitud a la cual los genes son activados (15).
Perspectivas

Aquellos genes que por sus similitudes con protenas previamente identificadas con un rol en la resistencia y que han mostrado ser diferencialmente expresados como respuesta a la infeccin por Xam, sern seleccionados para ser ubicados en el mapa de ligamiento de yuca y establecer una posible co-localizacin con QTLs de resistencia a la bacteriosis vascular. Estos genes podrn ser validados funcionalmente mediante la estrategia de silenciamiento gnico. Esta estrategia ha mostrado ser eficaz en la validacin funcional a gran escala en varias especies vegetales (16). Recientemente este mtodo ha sido adaptado en yuca en el laboratorio de Claude Fauquet (ILTAB, St Louis, Missouri) (17), lo cual permitir una validacin de varios genes de manera rpida y simultanea. Al mismo tiempo estos genes constituyen una fuente importante de nuevos marcadores moleculares que pueden ser empleados en los programas de mejoramiento asistido por marcadores y constituyen adems el punto de partida para el clonaje de genes.
Discusin

Uno de los desafos ms importantes dentro de los programas de mejoramiento vegetal es la identificacin de los genes de la planta implicados en la resistencia o en la va de sealizacin, los cuales conducen a la activacin de la respuesta de defensa frente a la infeccin con un patgeno determinado. A pesar de la importancia de la yuca como cultivo de seguridad alimentaria, son pocos los esfuerzos que se han hecho con miras a entender mejor su biologa y aumentar su produccin y en particular son escasos los esfuerzos que se han llevado a cabo para entender los mecanismos moleculares que se establecen como respuesta a la infeccin por Xam. Los recientes avances en el campo de la genmica y bioinformtica molecular han permitido generar de una manera rpida y eficaz conocimientos valiosos que se pueden traducir, en un corto tiempo, en la generacin de variedades con caractersticas mejoradas. Nosotros aprovechamos el desarrollo de las ltimas tecnologas de genmica estructural y funcional con miras obtener una mejor representacin de la organizacin del genoma de la yuca y obtener as un conocimiento mas profundo de los genes y procesos implicados en la respuesta de defensa de la yuca a la bacteriosis vascular. Estos avances en el conocimiento harn posible establecer comparaciones con los mecanismos de resistencia en otros cultivos y contra otro tipo de patgenos. El objetivo ltimo de este tipo de trabajo es la identificacin de genes de resistencia que podrn ser introducidos en variedades sensibles mediante transformacin. Esto permitir proveer al productor de nuevas variedades resistentes, lo que en ltimas se traducir en una mayor produccin de yuca y una mejor entrada de ingresos al pequeo productor.

118

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 1. Caractersticas de las libreras utilizadas para la generacin de la coleccin de ESTs en yuca. Variedad CM523-7 MPer183 MCol1522 MBra685 SG107-35 MBra685 Fenotipo/Condicin Alto contenido de almidn Bajo contenido de almidn Sensible/Inoculada Sensible/Sustrada Resistente/No inoculada Resistente/No sustrada Resistente/Sustrada Resistente/No sustrada Resistente/Sustrada Resistente/Sustrada Resistente/AFLP rgano Races Races Tallos Tallos Tallos Tallos Hojas Tallos Tallos Tallos Tallos Designacin CM Mper MCol-48h mc_ssh Mbra mb_nosub mb_dsc sg_nosub sg_ssh sg_dsc Aflp No de secuencias 3608 3391 1721 258 1560 258 438 128 210 382 241

Bibliografa

1. FAO. Food and agriculture Organization of the United Nations (FAO), Agricultural commodity Projections, FAO. 1998. Rome, Italy. 2. Verdier V, Restrepo S, Mosquera G, Jorge V, Lopez C. Recent progress in the characterization of molecular determinants in the Xanthomonas axonopodis pv. manihotis-cassava interaction. Plant Mol Biol 2004; 56,573-584. 3. Jorge V. Cartographie de la resistance du manioc a la bactriose vasculaire causee par Xanthomonas axonopodis pv. Manihotis. These Doctorat. UFR Des Sciences D' Orsay. 2000 Universite Paris XI, Pp 112. 4. Fregene M, Angel F, Gomez R, Rodriguez F, Chavarriaga P, Roca, W, et al. A molecular genetic map of cassava (Manihot esculenta crantz). Theor Appl Genet 1997 ; 95,431441. 5. Jorge V, Fregene MA, Duque MC, Bonierbale MW,Tohme J, Verdier V. Genetic mapping of resistance to bacterial blight disease in cassava (Manihot esculenta Crantz). Theor Appl Genet 2000; 101,865872. 6. Jorge V, Fregene M, Velez C, Duque M, Tohme J, Verdier V. QTL analysis of field resistance to Xanthomonas axonopodis pv. manihotis in cassava. Theor Appl Genet 2001; 102,564571. 7. Lopez C, Zuluaga A, Cooke R, Delseny M, Tohme J, Verdier V. Isolation of resistance gene candidates (RGCs) and characterization of an RGC cluster in cassava. Mol Genet Genom 2003; 269,658671. 8. Rudd S. Expressed Sequence Tags: alternative or complement to whole genome sequences? Trends Plant Sci 2003; 8,321329. 9. Lopez C, Jorge V, Piegu B, Mba C, Cortes D, Restrepo S, et al. A unigene catalogue of 5700 expressed genes in cassava. Plant Mol Biol 2004; 56,541554. 10. The Gene Ontology Consortium. Gene Ontology: Tool for the unification of biology. Nat Genet 2000; 25,2529. 11. Thimm O, Essigmann B, Kloska S, Altmann T, Buckhout TJ. Response of Arabidopsis to iron deficiency stress as revealed by microarray analysis. Plant Physiol

119

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

2001; 127,10301043. 12. Ramonell KM, Somerville S. The genomics parade of defense responses: to infinity and beyond. Curr Opin Plant Biol 2002; 5,291294. 13. Lopez C, Soto M, Restrepo S, Piegu B, Cooke R, Delseny M, et al. Gene expression profile in response to Xanthomonas axonopodis pv. manihotis infection in cassava using a cDNA microarray. Plant Mol Biol 2005; 57,393-410. 14. Tusher VG, Tibshirani R, Chu G. Significance analyses of microarrays applied to the ionizing radiation response. Proc Natl Acad Sci USA 2001; 98,51165121. 15. Tao Y, Xie Z, Chen W, Glazebrook J, Chang HS, Han B, et al. Quantitative nature of Arabidopsis responses during compatible and incompatible interactions with the bacterial pathogen Pseudomonas syringae. Plant Cell 2003; 15,317-30. 16. Lu R, Martin-Hernandez AM, Peart JR, Malcuit I, Baulcombe DC. Virus-Induced Gene Silencing in plants. Methods 2003; 30,296-303 17. Fofana IBF, Sangare A, Collier R, Taylor Ch, Fauquet CM. A geminivirus-induced gene silencing system for gene function validation in cassava. Plant Mol Biol 2004; 56, 13624.

70 60 Numero de genes 50 40 30 20 10 0 12 hpi 24 hpi 48 hpi 7 dpi 15 dpi Tiem po post inoculacion Inducidos Reprimidos

Estrs oxidativo (muerte celular) Desregulacin de la fotosntesis Degradacin proteica Refuerzo de la pared celular

Figura 1. Primer microarreglo de yuca. En el recuadro se observa el nmero de genes expresados diferencialmente a lo largo de la infeccin. Tambin se representan los procesos biolgicos en los cuales se encuentran implicados el mayor nmero de genes expresados diferencialmente.

120

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Identificacin y Anlisis de un Fragmento cromosmico de Pseudomonas syringae pv. phaseolicola nps3121 Involucrado en la Sntesis de Faseolotoxina. Identification and Analysis of a Chromosomal Fragment of Pseudomonas syringae pv. phaseolicola nps3121 Involved in the Phaseolotoxin synthesis.
Lpez-Lpez, Karina1,2, Aguilera, Selene 1, Vaca-Vaca, Juan Carlos 2, Hernndez-Flores, Jos Luis 1 y lvarez-Morales, Ariel 1. klopezl@palmira.unal.edu.co 1 CINVESTAV IPN Unidad Irapuato, Departamento de Ingeniera Gentica de Plantas Mxico. 2 Universidad Nacional de Colombia, Departamento de Ciencias Agrcolas, Colombia.

Resumen

Pseudomonas syringae pv. phaseolicola (Psp) es el agente causal de la enfermedad conocida como tizn de halo del frijol. Psp sintetiza una toxina no especfica de husped, faseolotoxina, la cul es un inhibidor reversible de la ornitina carbamoiltransferasa (OCTasa), una enzima clave en la sntesis de arginina. Para protegerse de su propia toxina, Psp sintetiza una OCTasa resistente a faseolotoxina, codificada por el gen argK. A la fecha, el nico gen involucrado en la sntesis de faseolotoxina es amtA, el cul codifica para una amidinotransferasa involucrada en la sntesis de homoarginina, un residuo del tripeptido de faseolotoxina. Para identificar genes involucrados en la sntesis de faseolotoxina, los extremos de amtA y argK fueron utilizados como sonda en una librera genmica. Los insertos de DNA en los fagos recombinantes fueron clonados, secuenciados y analizados utilizando DNASTAR y VECTOR NT, y la comparacin de secuencias se realiz en el programa BLAST. El anlisis computacional del fragmento obtenido de 30,245 pb (GeneBank DQ141263) sugiri la presencia de 27 ORFs. El anlisis mostr que amtA es parte de un operon de 10 ORFs. La comparacin de las secuencias mostr que 23 ORFs (includos amtA y argK) estaban flanqueados por secuencias de insercin y transposasas. Mutantes obtenidas en ORFs dentro del operon amtA mostraron una reduccin en la sntesis de faseolotoxina y fenotipos Tox-. La presencia de secuencias de insercin y transposasas que estn flanqueando un grupo de genes involucrados en la sntesis de faseolotoxina sugiere que esta regin ha sido adquirida por transferencia horizontal.
Palabras clave: Pseudomonas syringae pv. phaseolicola, sntesis de faseolotoxina, anlisis de secuencias, argK, amtA. Abstract

Pseudomonas syringae pv. phaseolicola (Psp) is the causal agent of halo blight disease of beans. Psp synthesizes a non-host specific toxin, phaseolotoxin, which is a reversible inhibitor of the ornithine carbamoyltransferase (OCTase), a key enzyme in the arginine biosynthesis. To protect itself from its own toxin, Psp synthesizes a phaseolotoxinresistant OCTase, which is encoded by the argK gene. To date, the only gene involved

121

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

in the phaseolotoxin synthesis is amtA, which encoded for an amidinotransferase involved in the synthesis of the homoarginine residue of the tripeptide moiety of phaseolotoxin. To identify genes involved in the phaseolotoxin synthesis, the ends of amtA and argK were used as probe in a genomic library. The inserted DNA in the recombinant phages was cloned, sequenced and analyzed using DNASTAR and VECTOR NT software and the comparisons of sequence were made using BLAST program. The computational analysis of the chromosomal fragment obtained of 30,245 bp (GeneBank DQ141263) suggested the presence of 27 ORFs. The analysis showed that amtA is part of an operon of 10 ORFs. The comparison of the sequence showed that 23 ORFs (included amtA and argK) were flanked by insertion sequences and transposases. Mutants obtained in ORFs inside of amtA operon showed a reduction in the phaseolotoxin and phenotype Tox-. The presence of insertion sequences and transposases that is flanked a cluster of genes involved in the phaseolotoxin synthesis suggests that this region has been acquired by horizontal transfer.
Keywords: Pseudomonas syringae pv. phaseolicola, phaseolotoxin synthesis, sequence analysis, argK, amtA.

Lpez-Lpez, Karina. Mxico. Ingeniera Qumica (Universidad Autnoma de Sinaloa). Doctora en Ciencias en Biotecnologa de Plantas (CINVESTAV, Mxico). Post-doctorado (CINVESTAV, Mxico). Docente de la Universidad Nacional de Colombia. 14 publicaciones (8 internacionales y 6 nacionales). Lneas de investigacin: Biologa Molecular de Bacterias Fitopatgenas, Biotecnologa de Plantas y Bioinformtica.: klopezl@palmira.unal.edu.co

122

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Preliminary Analysis for the Presence of Amino-acids in the Protein Structures at the PDB. Anlisis Preliminar de la Aparicin de Tripletas de Aminocidos en Estructuras Proteicas del PDB.
Meja Carmona, Diego Fernando 1, Tischer, Irene 2, diefermc@univalle.edu.co
1

Grupo de Bioinformtica Universidad del Valle, y Departamento de Ciencias Fisiolgicas, Universidad del Valle, Cali, Colombia.
2

Grupo de Bioinformtica Universidad del Valle y Departamento de Ciencias de la Computacin, Universidad del Valle, Cali, Colombia.

Resumen

En el presente trabajo, se hizo una bsqueda de las ocho mil (203) posibles combinaciones de grupos de tres aminocidos (tripletas), en cada una de las treinta y dos mil ciento veintitrs (32.123) protenas con estructura tridimensional resuelta y almacenada en el Banco de Estructuras de Protenas (PDB). Para cada tripleta se registraron los siguientes datos: nmero de veces que aparece en las protenas del DPB, nmero de veces que aparece en cada estructura secundaria (se consideraron como estructuras secundarias (estructura helicoidal, hoja plegada, giro Beta, doblz, y giro al azar. Esto da un nmero de ciento veinticinco estructuras secundarias posibles para cada tripleta, llamadas aqu, tripletas estructurales), el cdigo pdb de cada protena en que la tripleta aparece, y las posiciones respectivas dentro de la protena. Con estos datos, se calcularon las frecuencias y se hicieron anlisis preliminares que permitieron conocer: tripletas ms y menos frecuentes en protenas, tripletas con mayores y menores frecuencias en una estructura secundaria, y tripletas con aparente baja influencia en la estructura secundaria. Con base en esto, se propuso un modelo de prediccin de estructura secundaria, que se est evaluando contra protenas recientemente aparecidas en el pdb.
Palabras clave: estructura secundaria de protenas, tripletas de aminocidos, factor de influencia, frecuencias de aparicin, probabilidad de estructura secundaria, PDB. Abstract

In the present work, a search of the eight thousand (203) possible combinations of groups of three residues was made, in all the thirty two thousand, a hundred and twenty three proteins whose three-dimensional structure was solved and stored in the Protein Data Bank (PDB). For each triplet, next data were registered: number of appearances in all the proteins of the PDB, times of appearance in every secondary structure secondary structures considered: helix, sheet, beta turn, bend, and random coil), pdb code of every protein where appeared, and positions where every triplet appeared in the protein. With these data, frequencies were calculated, and preliminary analysis were made like : more and less frequent triplets in proteins, triplets with more and less frequencies in a

123

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

secondary structure, and triplets with apparently low influence in any secondary structure. Based on this, a prediction method was proponed, and is being evaluated against new proteins in the PDB.
Keywords: protein secondary structure, residue triplets, influence factor, frequency of appearance, secondary structure probability, DPB. Meja, Diego. Colombia. Bilogo (Universidad del Valle). Maestra en bioqumica en la (Universidad del Valle). Docente ocasional de la universidad del Valle, Universidad Autnoma de Occidente y Universidad Nacional de Colombia. Lneas de Investigacin: Gentica, biologa molecular, biologa computacional.: diefermc@univalle.edu.co

Propuesta de un Indicador de la Tendencia de una Secuencia de Residuos de Aminocidos a Encontrarse en Estructuras Secundarias Particulares Resumen

En el presente trabajo, se hizo una bsqueda de las ocho mil (203) posibles combinaciones de grupos de tres aminocidos (tripletas), en cada una de las protenas con estructura tridimensional resuelta y almacenada en el Banco de Estructuras de Protenas (PDB). Para cada tripleta se registr el nmero de veces que se encuentra en las protenas del PDB y nmero de veces que aparece en cada estructura secundaria. Con estos datos, se calcularon las frecuencias y se hicieron anlisis que permitieron conocer: tripletas ms y menos frecuentes en protenas, tripletas con mayores y menores frecuencias en una estructura secundaria, y tripletas con aparente baja preferencia en la estructura secundaria. Con base en esto, se propuso un indicador de la tendencia de una secuencia de residuos de aminocidos a encontrarse en estructuras secundarias particulares, llamado ndice de preferencia estructural. El indicador propuesto se basa en las dos estructuras secundarias con mayor frecuencia de aparicin para cada tripleta de residuos.
Introduccin

La vida tal como se conoce, est esencialmente construida por molculas. Las macromolculas biolgicas juegan un papel esencial. Los cidos nucleicos son las molculas sobre las que se soporta la gentica, y las protenas por su parte, son las molculas que cumplen la mayor parte de las funciones dentro de los seres vivos. Son ellas las responsables de nuestra respuesta ante los ataques de los patgenos, las obreras que convierten nuestra comida en energa, las que sostienen buena parte de nuestra estructura y las que realizan casi cualquier funcin a nivel molecular, esencial para la vida. Dado que la funcin de una protena est determinada en su mayor parte por la estructura, es importante conocer su estructura tridimensional, que a su vez, es dependiente de varios factores como el entorno de cargas, las interacciones con el agua,

124

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

los enlaces de hidrgeno, y las interacciones electrostticas. Sin embargo, el factor ms importante es la secuencia de aminocidos que compone a cada protena. La forma experimental de conocer la estructura tridimensional de una protena implica costosa infraestructura, alta especializacin tcnica y elaborados procedimientos de laboratorio, que en conjunto resultan difciles de obtener y que ni siquiera garantizan el xito al conocer la estructura. Debido a esto, desde hace varios aos, se hacen intentos por resolver la estructura mediante mtodos computacionales, partiendo de la secuencia de aminocidos de la molcula, y considerando que esta secuencia determina la estructura (Chou y Fasman, 1974, y Chou, 1989). Sin embargo, la precisin de los mtodos de prediccin de estructura secundaria est an por debajo del 77% (Rost y Sander, 1993; Lander, 1993; Rost, 2003). En el presente trabajo, se usaron tripletas de residuos encontradas en las protenas almacenadas en el Banco de Datos de Estructuras de Protenas (PDB), para hacer un anlisis de las estructuras secundarias de las mismas, y a partir de las frecuencias de aparicin, hacer inferencias sobre la tendencia a formar estructuras secundarias particulares por parte de estas secuencias cortas de residuos. Los resultados del anlisis motivaron la creacin de un indicador que define la preferencia estructural de una tripleta de residuos a aparecer en alguna estructura secundaria especfica.
Materiales y Metodologa

Se analizaron las protenas que contena el PDB a Marzo de 2006; unas 32123 protenas con estructura tridimensional resuelta. Para cada una de las 8000 (203) posibles combinaciones de tripletas de aminocidos, se determin el nmero de veces que la tripleta aparece en todas las protenas del PDB y la estructura secundaria en que se encuentra la tripleta. El conteo de tripletas de residuos, se realiz en forma sobrelapada, corriendo el marco de lectura un residuo cada vez sobre la secuencia de la protena. Se aplic el algoritmo conocido como DSSP (Description of Secondary Structure of Proteins) para asignar a cada protena su estructura secundaria. El algoritmo DSSP, realizado por investigadores del Instituto Max Planck (Kabsch y Sander, 1983), se basa principalmente en la distribucin de los enlaces de hidrgeno y se ha convertido en el estndar de oro para la asignacin de estructura secundaria a partir de las coordenadas atmicas de una protena. El DSSP identifica ocho estructuras secundarias, cinco ms que las propuestas por Pauling y Corey (1951), a saber: tres estructuras helicoidales (hlices Alfa, 310 y Pi), dos estructuras de hoja (escalera Beta y hoja Beta aislada) y tres tipos de giros (giro Beta, doblz y estructura al azar). En el presente estudio, dado que algunas estructuras secundarias quedan representadas por muy pocos eventos, se decidi juntar las estructuras helicoidales en una sola categora (hlices, H), y las estructuras de hoja en otra (hojas, B). Los tipos de giros se consideraron como tres categoras diferentes (giro Beta: C, doblz: T y estructura al azar: U). Con esto, cada tripleta puede aparecer en protenas en una de 125 (53) combinaciones de estructuras secundarias, que se llamarn aqu tripletas estructurales. Es importante anotar que de las 125 tripletas estructurales que asigna el DSSP, muchas no tiene sentido desde el punto de vista de la estructura real de las protenas: aquellos casos en que el residuo del centro de la tripleta est en una estructura secundaria

125

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

diferente a la de sus dos vecinos (ej: HBC o HBH). Estas 80 tripletas sin sentido se agruparon en una sola categora. Los datos obtenidos se analizaron estadsticamente respecto de sus frecuencias de aparicin. Los resultados obtenidos inspiraron la creacin de un indicador que describe el grado de preferencia de una tripleta de residuos a aparecer en una estructura secundaria en particular.
Resultados y Discusin Frecuencia de aminocidos

El promedio de aparicin de las tripletas es de 935. El total de apariciones de todas las tripletas en conjunto fue de 7475.351. Existen tripletas de aminocidos que aparecen muy pocas veces en el PDB, en comparacin con otras que aparecen frecuentemente. A manera de ejemplo, la tripleta que menos aparece en las protenas del PDB es MWW (Metionina-Triptfano-Triptfano) que aparece una sola vez, en conformacin de hoja beta, mientras que la tripleta ms frecuente es AAL (Alanina-Alanina-Leucina), que aparece 5833 veces. Cuando las frecuencias se ordenan y se grafican en orden ascendente, se obtiene una curva con la forma siguiente (Fig 1.)
6000

5000

4000

3000

2000

1 000

Figura 1. Frecuencias de aparicin de tripletas de residuos en las protenas del Banco de Estructuras de Protenas (PDB).

126

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Frecuencia de tripletas estructurales

Las tripletas estructurales se distribuyeron como se indica en la figura 2.


2.100.000

1.600.000

1.100.000

600.000

100.000 EH E H EE UUE THU UTH HTH TUU H EU EH H U EE ET H TUT ET T E ET UTT HHH ST E T ES T SE TUS SH E H ES E SE U SE U SH SH S SU S EU S ST S SS T ST T SS S

-400.000

Figura 2. Tripletas estructurales ordenadas segn su frecuencia de aparicin.

Note que las tripletas estructurales que aparecen menos veces, son las tripletas sin sentido. Las tripletas con sentido se pueden dividir en tripletas que adoptan una sola estructura secundaria como HHH, y tripletas del tipo HHC HCC. De acuerdo con lo anterior, las tripletas estructurales se organizaron en tres categoras: tripletas puras (de un solo tipo de estructura secundaria), tripletas transicionales (donde dos residuos vecinos en la tripleta se encuentran en una estructura secundaria diferente del otro residuo; es decir, se tiene la transicin entre una estructura y otra), y tripletas sin sentido como se defini arriba. Las frecuencias de aparicin de estos tres tipos de tripleta estructural, aparecen en la figura 3.

832.884

3.637.887

Figura 3. Distribucin de tipos de tripletas estructurales en la asignacin de estructura secundaria dada por el programa DSSP a partir de las protenas del PDB.

3.004.580

PURAS TRANSICION SIN SENTIDO

El porcentaje de tripletas puras es de 48.7; de tripletas transicionales es de 40.2, y el de tripletas sin sentido es de 11.1. El porcentaje tan alto de tripletas sin sentido permite sugerir la incorporacin de restricciones al algoritmo DSSP.

127

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Es llamativo observar que la relacin entre tripletas puras y tripletas transicionales es de 1.2:1. Esto permite inferir que las estructuras secundarias puras son relativamente cortas. Clculos especficos permiten concluir que la longitud promedio de estructuras secundarias puras es de 6.8 residuos. Basndose en lo anterior, y considerando la clasificacin en hlices, hojas, giros al azar, giros beta y dobleces, las tripletas se distribuyeron de la siguiente manera.

Figura 4. Distribucin de las tripletas de secuencia en estructuras secundarias.

El resultado muestra que la estructura secundaria ms encontrada en protenas, es la helicoidal, seguida por las estructuras de hoja. Las estructuras al azar son los giros ms comunes, y los dobleces, los menos comunes.
Relacin entre tripletas de residuos y tripletas estructurales

Una tripleta de residuos puede aparecer en varias tripletas estructurales diferentes. Por eso se tomaron las dos tripletas estructurales ms frecuentes para cada tripleta de residuos. Se encontr que algunas tripletas aparecen de manera dominante en una tripleta estructural especfica, y muy pocas veces ninguna en alguna otra tripleta estructural. Por otro lado, existen tripletas que pueden aparecer un nmero similar de veces en diferentes tripletas estructurales. Un ejemplo de esto se muestra en la tabla 1.

Tabla 1. Tripletas estructurales de mayor aparicin y de segunda mayor aparicin de algunas tripletas de aminocidos.

En la tabla se puede observar que por ejemplo la tripleta de residuos AAA (Alanina-Alalina-Alanina) aparece ms frecuentemente (70%) en estructura HHH, mientras que la segunda tripleta estructural ms frecuente es HHT, que aparece 4% de las veces. Esto sugiere que la

128

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

tripleta AAA aparece predominantemente en estructuras helicoidales. En contraste, la tripleta de residuos AAP (Alanina-Alanina-Prolina) se presenta con igual frecuencia en estructuras de UUU y EUU (19%). Se podra decir que la tripleta AAA tiene una prerefencia mayor hacia estructuras helicoidales, mientras que la tripleta AAP no presenta preferencia hacia una estructura secundaria especfica. Un ejemplo con una preferencia an ms marcada es la tripleta VWC (ValinaTriptfano-Cistena) que aparece el 91% de las veces en estructura BBB, mientras que la segunda mayor frecuencia de aparicin es el 2% que se da en la estructura BUU. Por otro lado, la mayor frecuencia de aparicin en una estructura secundaria de la tripleta VNN (Valina-Asparragina-Asparragina) es de slo 17% para HHH, y el 16% en BBB.
Definicin del ndice de Preferencia Estructural

Con base en los resultados anteriores es evidente que algunas tripletas de residuos tienden a aparecer preferencialmente en una estructura secundaria especfica, mientras que otras no presentan una preferencia marcada hacia una estructura secundaria. Este comportamiento se puede inferir considerando slo las dos mayores frecuencias de aparicin en estructura secundaria. Este hecho motiv la creacin de un indicador que describe la tendencia de una secuencia de residuos a encontrarse en estructuras secundarias particulares. El indicador propuesto se basa en las dos estructuras secundarias con mayor frecuencia de aparicin para cada tripleta de residuos. A este indicador, se le llam ndice de preferencia estructural (de una tripleta de secuencia hacia una tripleta estructural). Este ndice se determin como IPE = Fm (Fm-Fs), donde IPE es ndice de preferencia estructural, Fm es la mayor frecuencia de aparicin de la tripleta de secuencia en una tripleta estructural, y Fs es la segunda mayor frecuencia con que la tripleta de secuencia aparece en una tripleta estructural (ambas normalizadas a valores entre cero y uno). El valor del IPE est entre 0 y 1. El 0 indica el ms bajo valor de preferencia estructural, y 1, la mxima preferencia de una secuencia hacia la formacin de una estructura secundaria determinada. El valor de 0 se obtiene en el caso en que las dos mayores frecuencias son iguales. El valor 1 se obtiene cuando la tripleta de residuos siempre aparece en una nica estructura secundaria. Para las tripletas de los ejemplos anteriores, se determin el ndice de preferencia estructural como sigue: IPE(AAA) = Fm (Fm-Fs) = 0.7 x (0.7-0.04) = 0.462 IPE(AAP) = Fm (Fm-Fs) = 0.19 x (0.19-0.19) = 0.0 IPE(VWC) = Fm (Fm-Fs) = 0.91 x (0.91-0.02) = 0.810

129

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

IPE(VNN) = Fm (Fm-Fs) = 0.17 x (0.17-0.16) = 0.0017 El valor del ndice de preferencia estructural para estas tripletas, hace evidente que se requiere un solo valor para identificar la preferencia de una tripleta de residuos hacia una estructura secundaria especfica. Con esto, se propone para estudios posteriores, extender el uso del indicador a protenas completas, representando de manera sencilla la propensin local para formar estructuras secundarias especficas. Combinando esta informacin de la protena con la estructura secundaria local, consideramos posible desarrollar un modelo de prediccin de estructura secundaria.
Bibliografa

Chou, PY y Fasman, GD. (1974). Prediction of protein conformation. Biochemistry, 13, 222-245. Chou, PY. (1989) En Fasman, GD. (ed.), Prediction of protein structure and the principles of protein conformation: Prediction of protein structural classes from amino acid compositions. New York, pp. 549-586. Kabsch,W. y Sander,C. 1983. Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers. 1983 Dec;22(12):2577-2637. Pauling, L., Corey, R.B. Configurations of polypeptide chains with favored orientations around single bonds: Two new pleated sheets. Proc. Natl. Acad. Sci. U.S.A. 37:729 740, 1951. Pauling, L., Corey, R.B., Branson, H. The structure of proteins: Two hydrogen-bonded helical configurations of the polypeptide chain. Proc. Natl. Acad. Sci. U.S.A. 37:205 211, 1951. Rost, B., Sander, C. Prediction of protein secondary structure at better than 70% accuracy. J. Mol. Biol. 232:584 599, 1993. Rost, B. Rising accuracy of protein secondary structure prediction., en Protein structure determination, analysis, and modeling for drug discovery' (ed. D Chasman), New York: Dekker, pp. 207-249. 2003. - Yi, T., Lander, E.S. Protein secondary structure prediction using nearest-neighbor methods. J. Mol. Biol. 232:11171129, 1993

130

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Estrategia de Exploracin Genmica para la Cepa Solventognica Colombiana Clostridium IBUN 22. Strategy of Genomics Exploration for the Colombian Solventogenic Clostridium Strain IBUN 22A.
Montoya Solano, Jos David*; Surez Moreno, Zulma Roco; Montoya Castao, Dolly; Aristizbal Gutirrez, Anczar, Fabio . *jdmontoyas@unal.edu.co Universidad Nacional de Colombia (IBUN)

Resumen

La cepa colombiana Clostridium IBUN 22A, aislada por el IBUN, es de particular inters por su alta capacidad solventognica, celuloltica y de produccin de 1,3Propandiol. En este trabajo se ha propuesto una estrategia de bioprospeccin genmica con el fin de regular la productividad de dichos procesos. En principio se construy una librera genmica en E. coli XL1 Blue tras cortar el genoma con BamHI y ligar los fragmentos con el plsmido pBluescript II KS +/-. Seis clones fueron seleccionados por su actividad celuloltica y secuenciados en la UNAM usando los primers M13-F y M13R. Posteriormente 19 clones de tamao superior a 500pb fueron secuenciados en EMBRAPA (Brasil) y en Corea usando los primers T3 y T7. Una base de datos fue construida en BLAST 2.2.8 con todas las secuencias disponibles y se realizaron alineamientos pareados locales con el fin de eliminar secuencias redundantes y corregir los sectores de baja resolucin. Con las secuencias resultantes se realizaron bsquedas contra GenBank 141.0 usando BLASTN. Las secuencias fueron traducidas en los seis marcos de lectura usando Artemis y con los ORF de tamao relevante se realizaron bsquedas contra UniProt 6.6 usando BLASTP. Elementos de las regiones genticas promotora y terminadora tambin fueron buscados con EMBOSS. Finalmente nueve secuencias fueron registradas en GenBank, incluyendo seis genes putativos de mantenimiento celular y la secuencia putativa parcial del gen dhaB1 que codifica para Glicerol Deshidratasa. Este gen es de particular inters dado que en C. butyricum el opern dha regula la sntesis de 1,3-Propandiol a partir de glicerol. La estrategia propuesta ha demostrado ser efectiva para el hallazgo de genes involucrados en rutas metablicas de importancia comercial en la cepa promisoria colombiana Clostridium IBUN 22A.
Palabras clave: bioprospeccin, Clostridium, genmica, bioinformtica, 1,3propandiol, librera genmica, solventognesis, celulolisis, mantenimiento celular. Abstract

Colombian strain Clostridium IBUN 22A, isolated at the IBUN, is particularly interesting due to its good performance regarding solventogenesis, cellulolysis and 1,3Propanediol production. In this work a genomic bioprospecting strategy is proposed with the aim of regulating productivity of such processes. A genomic library was

131

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

initially created in E. coli XL1 Blue after genome restriction with BamHI and fragment ligation with plasmid pBluescript II +/-. Six clones were selected due to its cellulolytic activity and later sequenced at UNAM (Mexico) using primers M13-F and M13-R. Afterwards 19 clones with length above 500bp were sequenced at EMBRAPA (Brazil) and in Korea using primers T3 and T7. A database for BLAST 2.2.8 was created using every available sequence; the same program was used to make local paired alignments with the aim of avoiding sequence redundancy and improving quality of low-resolution segments. Resulting sequences were used to make searches on GenBank 141.0 by means of BLASTN. Every sequence was also translated in the six possible reading frames using Artemis (release 8) and ORFs of relevant size were searched on UniProt 6.6 using BLASTP. Typical elements for the promotor and terminator genetic regions were also identified on the sequences by means of EMBOSS. Finally nine sequences were registered in GenBank including six putative housekeeping genes and a putative partial sequence for the gen dhaB1, which codifies for Glycerol Dehydratase. This gene is particularly interesting, considering the dha operon regulates the synthesis of 1,3Propanediol from glycerol in C. butyricum. In this way, effectivity of the proposed strategy to find genes involved in economically relevant biochemical pathways was proved for the promising Colombian strain Clostridium IBUN 22A.
Keywords: bioprospecting, Clostridium, genomics, bioinformatics, 1,3-propanediol, genomic library, solventogenesis, cellulolysis, housekeeping genes. Montoya Solano, Jos David. Colombia. Qumico Farmacutico (Universidad Nacional de Colombia. Asistente de Investigacin Grupo de Investigacin y Bioprospeccin y Biotecnologa Universidad Nacional de Colombia. 3 publicaciones nacionales. Lneas de investigacin: cultivo y anlisis de microorganismos, cultivo de tejidos vegetales in vitro, tcnicas moleculares y bioinformtica, bioprocesos y bioprospeccin, caracterizacin molecular. Estrategia de Exploracin Genmica para la Cepa Solventognica Colombiana Clostridium IBUN 22 Introduccin

La lnea de investigacin en microorganismos solventognicos del Grupo de Bioprocesos y Bioprospeccin (IBUN) tiene como labor la exploracin y mejoramiento de rutas metablicas bacterianas con potencial comercial. En dicho marco se han aislado y caracterizado cepas colombianas no patgenas del gnero Clostridium con alta capacidad para la produccin de solventes (fermentacin ABE), la hidrlisis de polmeros de celulosa y hemicelulosa y la produccin de 1,3-Propandiol a partir de Glicerol. En principio se aislaron 178 clostridios solventognicos a partir de muestras de suelo colombiano, 13 de los cuales producen una mayor concentracin de solventes que C. acetobutylicum ATCC 824 (1). La capacidad de dichas cepas para utilizar fuentes de carbono diferentes de glucosa tambin fue evaluada, encontrndose cinco cepas que hidrolizan una amplia variedad de polmeros de celulosa y hemicelulosa con una actividad especfica considerablemente alta (IBUN 22A, 18Q, 62B, 62F y 140B) (2).

132

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Adicionalmente se evalu la capacidad de las cepas para producir 1,3-Propandiol (1,3PD) a partir de glicerol y se encontr que IBUN 13A, 18A y 158B poseen el mayor rendimiento de producto en sustrato (aun mayor que el de C. butyricum DSM523), mientras que IBUN 22A demostr la mayor productividad volumtrica (3). El objetivo actual del Grupo de Bioprocesos y Bioprospeccin es alcanzar un nivel de produccin de 1,3-PD mayor a los estndares internacionales (85g/L en fermentaciones por lote alimentado, Ref. 4) utilizando sustratos de bajo costo, como la celulosa presente en los desechos slidos y efluentes de las industrias agrcolas colombianas. Tal objetivo puede ser logrado a travs del estudio de las condiciones ptimas para la fermentacin o bien por regulacin de las rutas metablicas correspondientes en las cepas promisorias a partir de su genoma (ingeniera metablica). Ejemplos de esta segunda opcin son la induccin de G3P-deshidrogenasa y la inhibicin de glicerol kinasa lograda por el equipo de Cameron (5) en una E. coli transformada con el opern dha de K. pneumoniae, con lo cual se alcanza una mayor produccin de 1,3-PD durante la fermentacin anaerbica. Para desarrollar estrategias similares con las cepas colombianas primero es necesario aislar y secuenciar los genes involucrados en la celulolisis y la produccin de 1,3-PD, actividad que ha sido definida como exploracin genmica dada la variedad de genes y estructuras genticas relacionadas con dichas rutas metablicas en las especies bacterianas representativas (C. cellulolyticum y C. thermocellum para celulolisis, C. butyricum y K. pneumoniae para produccin de 1,3PD entre otras). La cepa IBUN 22A fue seleccionada para el estudio de su genoma dado su alto desempeo en las pruebas de degradacin de polisacridos y produccin de 1,3-PD a partir de glicerol realizadas en estudios anteriores (2, 3). El hallazgo de genes que sirvan como focos potenciales para el mejoramiento de estas rutas metablicas y la expresin de genes que codifiquen para glicerol-3-fosfato fosfatasa en IBUN 22A permitiran la industrializacin de un bioproceso consolidado en el cual sustratos econmicos como polmeros de celulosa y hemicelulosa sean convertidos sucesivamente en Glucosa, Glicerol y 1,3-PD (6). En este trabajo se describe el procedimiento utilizado para el hallazgo de genes en IBUN 22A. En un estudio anterior se encontr que el tamao de su genoma es 4,2 Mpb por medio de PFGE tras corte con las enzimas de restriccin ApaI, Eco52I, SmaI y XhoI (7). A partir del genoma de IBUN 22A se construy una librera genmica en E. coli XL1 Blue (8), seleccionando luego clones a partir de su tamao y ensayos bioqumicos para proceder a la secuenciacin y anlisis bioinformtico de las secuencias obtenidas. Adicionalmente se disearon sondas para la futura deteccin, amplificacin y secuenciacin de clones que contengan genes implicados en la celulolisis y la produccin de 1,3-PD.
Materiales y Mtodos Librera genmica de IBUN 22A

El ADN total de C. IBUN 22A fue extrado por el protocolo de maxipreparacin propuesto por Schwarz et al. (9). 600ng de ADN digerido parcialmente con 2,8 U de la enzima Sau3AI fueron ligados con 600ng del plsmido pBluescript II KS+/previamente digerido con BamHI. Se tomaron 600ng de la ligacin para transformar clulas de E. coli XL1 Blue. El volumen total de la transformacin fue plaqueado

133

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

gradualmente en agar LB ampicilina para aislar los transformantes resultantes (8). El clon pBs25, portador del inserto de mayor tamao (13Kb), fue utilizado para la contruccin de una sublibrera en E. coli DH5 tras digestin total con la enzima Sau3AI (10).
Ensayos bioqumicos de actividad celulasa

Los clones de la librera genmica y de la sublibrera fueron cultivados repetidamente en cajas de agar LB ampicilina adicionadas con IPTG y X-gal a 37C por 24h. Cada caja fue cubierta posteriormente con 7ml de Buffer PC (50mM K2HPO4, 12 mM cido ctrico, pH 6,3) incluyendo 0,7% de agar y 0,5% de un sustrato celulsico (celulosa, carboximetilcelulosa o celobiosa). Tras incubacin por tres horas a 37C se tieron las cajas con solucin de Rojo Congo al 1% por 15 minutos y se lavaron con solucin salina 1M. Los clones con actividad celulasa se evidenciaron por la visualizacin de halos de hidrlisis incoloros sobre un fondo rojo (8, 10).
Determinacin del tamao de los insertos

El ADN plasmdico de cada uno de los clones de la librera (579 clones recuperados) y de la sublibrera (271 clones recuperados) fue aislado por un protocolo de minipreparacin y separado por electrofresis de agarosa al 1% en TBE a 1,43 V/cm. Para cuantificar el ADN obtenido se compar con patrones de ADN de fago Lambda (Promega) de concentracin conocida digerido con HindIII (BIO-RAD). Del tamao total obtenido con cada clon se rest el tamao del vector (2961pb) para obtener el tamao aproximado del inserto (10).
Repurificacin y secuenciacin de clones

Los insertos de ocho clones seleccionados por su potencial actividad celuloltica fueron secuenciados en la Universidad Autnoma de Mxico (UNAM) usando los primers M13F y M13R. Los insertos de once clones adicionales seleccionados por su tamao superior a 500pb fueron secuenciados en la Universidad de Campinas (Brasil) usando los primers T3 y T7. La falta de purificacin de los plsmidos y otros factores tcnicos condujeron a una baja calidad de secuencias. Por ello los clones previamente secuenciados fueron extrados con el kit Wizard de Promega y utilizados para transformar E. coli DH5. Tras la multiplicacin in vitro los clones fueron reextrados con el mismo kit y sus insertos fueron secuenciados en Corea por Macrogen Corp. usando los primers T3 y T7, junto con los seis clones de mayor tamao que no haban sido secuenciados anteriormente.
Creacin de una coleccin no redundante de secuencias

Los extremos con baja resolucin fueron eliminados manualmente de cada secuencia recibida. Los extremos de cada inserto fueron ensamblados por medio de alineamientos pareados locales con ClustalW 1.83 (11) siempre que cubrieran la longitud total del inserto. Con las secuencias obtenidas se construy una base de datos en BLASTN (12) y se realizaron bsquedas de cada secuencia contra dicha base de datos, de forma que se pudieran realizar todos los alineamientos pareados locales posibles. Por anlisis de los alineamientos resultantes se corrigieron algunos sectores internos de baja resolucin en las secuencias disponibles y se eliminaron manualmente las secuencias redundantes.

134

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Prediccin de genes por anlisis bioinformtico de secuencias

Partiendo del modelo de prediccin de genes propuesto por Math et al. (13), en este trabajo se buscaron sensores de contenido y de seal para identificar genes en las secuencias disponibles. Como sensores de contenido intrnsecos se buscaron los ORFs ms largos de cada secuencia (usualmente mayores a 100pb) por medio de Artemis v8 (Fig. 1, Ref. 14) y se extrajeron con la aplicacin getorf de EMBOSS (15). Con dichos ORFs se realizaron bsquedas en GenBank 156.0 y en bases de datos especficas para Clostridium acetobutylicum, C. botulinum A, C. difficile, C. perfringens ATCC 13124 y str. 13, C. tetani E88 y C. thermocellum ATCC 27405 (16) por medio de BLAST 2.2.8 (12) y TBLASTX (sensores de contenido extrnsecos). Las secuencias originales tambin fueron traducidas en los seis marcos de lectura con la aplicacin transeq de EMBOSS y con los ORFs ms largos se realizaron bsquedas en UniProt 6.6 (17) usando BLASTP. Finalmente se buscaron seales de las regiones promotora y terminadora en las secuencias con semejanza mayor al 70% con respecto a genes reportados en Clostridium o gneros relacionados. Para ello se parti de secuencias consenso de las cajas -35 y 10, los elementos RBS (sitios de unin ribosomal) y los palndromes de terminacin reportados en GenBank para varios genes correspondientes al gnero Clostridium. Las secuencias seleccionadas fueron registradas manualmente en GenBank usando la herramienta BankIt (en lnea).
Diseo de sondas para genes de celulolisis y produccin de 1,3-PD

Se disearon sondas para la futura deteccin de genes involucrados en la celulolisis y la produccin de 1,3-PD en la librera genmica de IBUN 22A. Para ello se construy una base de datos con registros de 293 genes involucrados en los procesos de celulolisis y produccin de 1,3-PD provenientes de 35 especies bacterianas y fngicas relacionadas con el gnero Clostridium (18, 19, 20, 21). Los genes fueron agrupados de acuerdo al tipo de enzima y a los dominios catalticos o de unin a sustrato en el caso de las celulasas. Cada grupo se someti a alineamiento mltiple en ClustalW 1.83, y con base en los resultados se crearon subgrupos de similitud mayor al 50%. Se localizaron secuencias conservadas de longitud mayor a 19 nucletidos en GeneDoc 2.6.002 (Fig. 2), y se determinaron sus propiedades fisicoqumicas con GeneRunner v3.05, mientras que su sensibilidad y especificidad fue verificada por bsquedas en GenBank usando BLASTN 2.2.8 y en CDD (Conserved Domain Database) usando RPS-BLAST (12). Se escogieron sondas que cumplieran con los criterios generales para diseo de primers y sondas de hibridacin expuestos por Rybicki et al. (22).
Resultados Genes putativos y secuencias intergnicas encontrados

En la coleccin no redundante de secuencias se obtuvieron 25 secuencias con longitudes de 200 a 1600pb. Las secuencias de menor longitud usualmente no permitan encontrar elementos genticos relevantes. Adicionalmente el mtodo de anlisis de secuencias propuesto requiere de un periodo de tiempo considerable por secuencia. Por ello solo 10 secuencias han sido registradas en GenBank hasta el momento para la cepa IBUN 22A y 15 en total para las cepas promisorias colombianas del gnero Clostridium. En un trabajo anterior acerca de la clasificacin taxonmica de las cepas promisorias se haba

135

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

reportado la secuencia del gen 16S rRNA de IBUN 22A (Accession Nr. AJ289704). En este trabajo se registraron dos secuencias intergnicas correspondientes a los clones 012901-20 y 011901-2 (Accession Nr. DQ223968 y DQ223967) y siete secuencias genticas para la cepa IBUN 22A (Tabla 1). Las secuencias fueron reportadas como genes putativos siempre que la semejanza de un ORF con una secuencia nuclica o peptdica almacenada en GenBank o UniProt fuera mayor al 70%, sumado a la presencia de seales relevantes para las regiones promotora y terminadora. Entre los genes registrados se encuentran dos genes putativos que codifican para transcetolasa, enzima que conecta las rutas metablicas de gliclisis y pentosas-fosfato (Accession Nr. DQ228722 y DQ228721). Se trata de dos genes parlogos, codificando cada uno para polipptidos similares a diferentes sectores de la enzima tktC de C. perfringens st.13 (Accession Nr. BAB80003 de UniProt). DQ228722 contiene un dominio de unin a piridina con residuos cidos conservados que hacen parte del sitio activo e intervienen en la unin al sustrato, mientras que DQ228721 contiene el dominio C-terminal, que ha sido propuesto como regulador del sitio de unin al sustrato. Adicionalmente se encontraron potenciales cajas -10 en cada secuencia. Tambin se encontraron dos clones con un segmento duplicado correspondiente a un gen putativo Purina-Nucleosido Fosforilasa (deoD) truncado. Los clones 020801-30 y pBs25 guardan 80% y 88% de identidad respectivamente con el gen que codifica para la misma protena en C. tetani E88 (gen CTC_01388, Accession Nr. AE015927) a lo largo de una regin de 66pb. Solo el extremo 3 del gen fue encontrado en cada clon, puesto que hay un sitio de corte Sau3AI (enzima utilizada para construir la librera) en la secuencia codificante. Los insertos fueron registrados en GenBank con dos cdigos diferentes (DQ225170 y DQ228723) teniendo en cuenta que el espacio intergnico que sigue al gen truncado es diferente en cada uno. En pBs25 se encontr adicionalmente un palndrome de terminacin putativo de 25 nucletidos a una distancia de 70pb despus del codn STOP. En el clon pBsIBUN22A-3 se encontr el extremo 3 de un gen putativo del Factor de Elongacin TU, el cul promueve la unin de los aminoacil-tRNA al sitio A de los ribosomas durante el proceso de traduccin (Accession Nr. DQ060835). El segmento de 127 nucletidos tiene una identidad del 86% con el gen tufA de C. perfringens st.13 (Accession Nr. BA000016). El polipptido traducido de pBsIBUN22A-3 tiene una alta identidad con el dominio III del Factor de Elongacin TU, registrado en la base de datos CDD (Conserved Domains Database) de NCBI (http://www.ncbi.nlm.nih.gov/). Adicionalmente se encontr en la secuencia registrada un palndrome de terminacin de 20 nucletidos a 27pb del codn de terminacin putativo. En el clon pBsIBUN22A-2 se encontr la secuencia completa de un gen putativo, el cul posee una identidad del 72% y 67% con respecto al gen nifN-B de C. beijerinckii y C. pasteurianum respectivamente. Dicho gen codifica para una oxidorreductasa requerida en la biosntesis del grupo prosttico de la Nitrogenasa (Cofactor Fe-Mo) y hace parte del reguln para fijacin de nitrgeno en otros clostridios. La secuencia codificante del gen putativo (nifN) en pBsIBUN22A-2 tiene una longitud de 702pb y corriente arriba a una distancia de 9pb se encontr un RBS con la secuencia consenso GGAGG. La secuencia fue registrada en GenBank bajo el cdigo DQ002548.

136

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El clon ms importante con respecto a las rutas metablicas de inters es pBsIBUN22A1, pues en l se encontr el extremo 5 de un gen putativo que codifica para Glicerol Deshidratasa (una de las tres enzimas responsables de la conversin de glicerol en 1,3PD). El segmento codificante tiene una longitud de 776pb, de los cuales los ltimos 386pb tienen una identidad del 99.74% con respecto al gen dhaB1 (Glicerol Deshidratasa) de C. butyricum. Al comparar las secuencias proticas correspondientes se alcanza el 100% de identidad en un segmento de 152 aminocidos. Sumando esta evidencia a la alta capacidad de IBUN 22A para producir 1,3-PD se ha establecido que la secuencia encontrada corresponde al gen dhaB1 de la cepa IBUN 22A. En la regin inicial del gen putativo un segmento de 107pb tiene una identidad de 85% con una protena transportadora de prolina y triptfano dependiente de sodio en Clostridium tetani. Adicionalmente se encontr un RBS potencial con secuencia GGAAG a una distancia de 15pb corriente arriba del codn de inicio putativo. Esta secuencia fue registrada bajo el cdigo AY968605 de GenBank. La informacin biolgica consignada en cada registro fue obtenida a partir de los genes ortlogos encontrados en especies del gnero Clostridium por medio de bsquedas con BLASTN, TBLASTX y BLASTP. Todos los genes registrados son putativos puesto que la expresin y actividad de las protenas correspondientes aun no ha sido comprobada experimentalmente (p.ej. por complementacin de cepas knock-out con los clones respectivos). Recientemente tambin ha sido amplificado el gen dhaT que codifica para 1,3-PD deshidrogenada (parte de la ruta metablica que convierte glicerol en 1,3-PD) en las cepas Clostridium sp. IBUN 13A y 158B, taxnomicamente muy cercanas a IBUN 22A (2), utilizando modificaciones de los primers reportados por Raynaud et al. (23) basadas en la semejanza del gen dhaB1 de IBUN 22A con su ortlogo en C. butyricum (resultados no publicados).
Sondas para la deteccin de genes de celulolisis y del opern dha

Se construyeron 16 alineamientos mltiples con ClustalW 1.83 usando penalidades por apertura y extensin de gaps 11 y 1 respectivamente, teniendo en cuenta que el puntaje promedio mnimo de los alineamientos pareados posibles para cada alineamiento mltiple fuera 50. Uno de los alineamientos corresponde a genes dhaT (1,3-PD deshidrogenasa) de bacterias representativas de la produccin de 1,3-PD a partir de glicerol, mientras 15 alineamientos corresponden a celulasas de 15 dominios funcionales diferentes. Cada alineamiento est compuesto de dos a seis genes. A partir de cada alineamiento se dise una sonda con longitud mnima de 19 nucletidos, de manera que los resultados especficos pudieran ser distinguidos de los inespecficos tras bsquedas en GenBank 156.0 con BLASTN. De esta forma se obtuvieron 16 sondas con longitud de 19 a 25 nucletidos y Tm de 55 a 69C calculada con GeneRunner v3.05. Se evit adems la seleccin de sondas que formaran horquillas estables con Tm superior a 30C. Las sondas diseadas para cada tipo de gen y sus propiedades fisicoqumicas se encuentran enlistadas en la Tabla 2. En las bsquedas con BLASTN se encontr que los resultados con Valor E inferior a 0,05 para cada sonda correspondieron siempre a los genes para los cuales fueron diseadas. Por definicin todos los resultados con Valor E menor a 1 son especficos, puesto que existe la probabilidad de que se encuentre menos de un registro con identidad equivalente debido al azar, y 0,05 se considera un valor E marginalmente

137

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

significativo (12). Los resultados de las bsquedas con RPS-BLAST indican que la sonda diseada para el gen dhaT reconoce siempre el mismo dominio en cada gen, mientras que en el caso de las celulasas cada sonda diseada puede identificar a varias enzimas de diversa funcin que poseen el mismo dominio funcional, considerando el carcter multidominio de las celulasas (18, 19, 21).
Discusin

El mtodo de exploracin genmica propuesto en este trabajo est enfocado a la bsqueda de genes de las rutas metablicas de inters comercial en las cepas colombianas promisorias del gnero Clostridium. Por tanto no se trata de un mtodo exhaustivo comparable con las estrategias de secuenciacin por shotgun o colecciones de ESTs. En principio la creacin de una librera genmica permiti escoger clones que potencialmente contuvieran genes de inters por criterios como el tamao del inserto (mayor a 500pb) y la actividad celulasa de las colonias de E. coli transformadas. La secuenciacin de insertos en diferentes instituciones tras los procesos de seleccin trajo sin embargo problemas de redundancia y baja calidad de las secuencias iniciales. A partir de la coleccin de secuencias corregidas no redundantes obtenidas tras el procesamiento con BLAST y ClustalW se utiliz una estrategia combinada para la prediccin de genes, segn el modelo propuesto por Math et al. (13). El mtodo intrnseco (bsqueda de ORFs de longitud mayor a 100pb) permiti tamizar las secuencias en busca de aquellas que pudieran contener genes putativos parciales o completos. Por su parte el mtodo extrnseco, basado en la identificacin de genes ortlogos por comparacin de las secuencias con bases de datos de especies taxonmicamente relacionadas con el gnero Clostridium, permiti confirmar la identidad de las secuencias genticas o proticas altamente conservadas. La bsqueda de seales del promotor y de la regin de terminacin fue til solo en aquellos casos en los cuales un extremo de un gen estaba lo suficientemente alejado del extremo de la secuencia correspondiente, pero ayud a confirmar los codones de inicio y terminacin de la traduccin, asunto que constituye un problema general en la prediccin de genes en procariotes (13). El hallazgo de los genes expuestos en la cepa IBUN 22A abre focos para el mejoramiento de las dems cepas promisorias dada la cercana taxonmica encontrada entre ellas en estudios realizados en los ltimos aos, incluyendo ensayos bioqumicos, morfolgicos, perfiles plasmdicos, secuenciacin del gen 16S rRNA, AFLPs y anlisis multivariado (2, 24, 25, 26). Por tal motivo se ha propuesto la amplificacin del opern dha en otras cepas que han demostrado un buen nivel de produccin de 1,3-PD a partir de la secuencia de dhaB1 reportada para IBUN 22A. La existencia de un opern dha en las cepas promisorias se asume dada su cercana taxonmica a Clostridium butyricum. En efecto, la amplificacin del gen dhaT (1,3-PD deshidratasa) fue lograda recientemente en las cepas IBUN 13A y 158B, definidas tambin como importantes productoras de 1,3-PD, usando primers reportados por Raynaud et al. (23) basados en un alineamiento de los genes dhaT de C. freundii, K. pneumoniae y C. pasteurianum (resultados no publicados). Una nueva estrategia de exploracin genmica propuesta para las cepas colombianas de Clostridium sp. es la utilizacin de las sondas diseadas para buscar genes involucrados en la degradacin de celulosa y la produccin de 1,3-PD. Tales experimentos ya han

138

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

sido realizados exitosamente por el equipo de Shanmugam (27) para la bsqueda de genes de celulasas y xilosidasas a partir de ADN extrado de poblaciones bacterianas cultivadas en biodigestores anaerobios termoflicos. En nuestro caso las sondas diseadas seran utilizadas en principio sobre la librera genmica de IBUN 22A y eventualmente sobre ADN extrado de otras cepas promisorias como IBUN 13A e IBUN 158B, o bien sobre libreras construidas a partir de sus genomas siguiendo la metodologa expuesta en este artculo.
Agradecimientos

Los autores agradecen en particular la colaboracin del Grupo de Bioinformtica del IBUN durante el anlisis bioinformtico de secuencias. Las investigaciones expuestas a travs del artculo fueron realizadas dentro del marco del proyecto Anaerobic SolventProducing Bacteria from Colombian Sources: Fermentation of biomass and isolation of cellulolytic strains financiado por la Universidad Nacional de Colombia, Volkswagen Foundation y Colciencias.
Bibliografa

1. Montoya D, Spitia S, Silva E et al. Isolation of mesophilic solvent-producing clostridia from Colombian sources: physiological characterization, solvent production and polysaccharide hydrolysis. J Biotechnol. 2000; 79(2): 117-126. 2. Montoya D, Arvalo C, Gonzales S et al. New solvent-producing Clostridium sp. strains, hydrolyzing a wide range of polysaccharides, are closely related to Clostridium butyricum. J Ind Microbiol Biotechnol. 2001; 27(5): 329-335. 3. Cardenas D, Pulido C, Surez Z et al. Evaluating Clostridium sp. native strain 1,3-Propanediol production by fermentation from industrial glycerol and glycerol USP. En: Annals of the XII International Biotechnology Symposium and Exhibition (Santiago de Chile) [CD]. 2004. 4. Zeng AP, Biebl H. Bulk chemicals from biotechnology: the case of 1,3-Propanediol production and the new trends. Advances in Biochemical Engineering / Biotechnol. 2001; 74: 240-259. 5. Zhu M, Lawman P, Cameron D. Improving 1,3-Propanediol production from glycerol in a metabolically engineered E. coli by reducing accumulation of snGlycerol-3-phosphate. Biotechnol Prog. 2002; 18: 694-699. 6. Hartlep M, Hussmann W, Prayitno N et al. Study of two-stage processes for the microbial production of 1,3-propanediol from glucose. Appl Microbiol Biotechnol. 2002; 60(1-2): 60-66. 7. Quilaguy D, Surez Z, Aristizbal F et al. Genome analysis of thirteen Colombian clostridial strains by pulsed field gel electrophoresis. Elec J Biotechnol. 2006; 9(5): [electronic journal]. Disponible en URL: http://www.ejbiotechnology.info/content/vol9/issue5/full/3/index.html. 8. Vargas C, Montoya D, Aristizbal F. Clonacin y expresin en Escherichia coli de genes de celulasas de Clostridium IBUN 22A. Rev Colombiana Biotecnol. 2002; 4(1): 29-35.

139

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

9. Schwarz W, Schimming S, Rcknagel K et al. Nucleotide sequence of the celC gene encoding Endoglucanase C of Clostridium thermocellum. Gene. 1988; 63: 2330.

10. Roncancio I, Suarez Z, Montoya D et al. Aislamiento de clones con actividad endo--1,4-glucanasa a partir de un segmento de ADN de 13kb de Clostridium sp. IBUN22A. Universitas Scientiarum. 2006; 11(1): 29-40. 11. Thompson J, Higgins D, Gibson T. CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, positionspecific gap penalties and weight matrix choice. Nucleic Acids Res. 1994; 22(22): 4673-4680. 12. Altschul S, Madden T, Schaffer A et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997; 25: 33893402. 13. Math C, Sagot M, Schiex T et al. Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Research. 2002; 30(19): 4103-4117. 14. Rutherford K, Parkhill J, Crook J et al. Artemis: sequence visualisation and annotation. Bioinformatics. 2000; 16: 944-945. 15. Rice P, Longden I, Bleasby A. EMBOSS: the European Molecular Biology Open Software Suite. Trends Genet. 2000; 16: 276-277. 16. Benson D, Karsch-Mizrachi I, Lipman D et al. GenBank. Nucleic Acids Res. 2006; 34(database issue): D16-D20. 17. Leinonen R, Diez F, Binns D et al. UniProt Archive. Bioinformatics. 2004; 20: 3236-3237. 18. Bayer E, Shimon L, Shoham Y et al. Cellulosomes - Structure and ultrastructure. J Struct Biol. 1998; 124(3): 221-234. 19. Rabinovich M, Melnick M, Bolobova A. The structure and mechanism of action of cellulolytic enzymes. Biochemistry Moscow. 2002; 67(8): 850-871. 20. Sun J, van der Heuvel J, Soucaille P et al. Comparative analysis of dha regulon and related genes for anaerobic glycerol metabolism in bacteria. Biotechnol Prog. 2003; 19: 263-272. 21. Tamaru Y, Karita S, Ibrahim A et al. A large gene cluster for the Clostridium cellulovorans cellulosome. J Bacteriology. 2000; 182(20): 5906-5910. 22. Rybicki E. PCR primer design and reaction optimisation. En: Coyne, V., James D, Reid S, Rybicki E. Molecular biology techniques manual, 3 ed. Cape Town (Sudfrica); 2001. 23. Raynaud C, Sarabal P, Meynial-Salles I et al. Molecular characterization of the 1,3-propanediol (1,3-PD) operon of Clostridium butyricum. Proc Natl Acad Sci. 2003; 100: 5010-5015. 24. Arvalo C, Arrieta A, Aguilera G et al. Caracterizacin de cepas nativas colombianas de clostridios solventognicos por perfiles de plsmidos. Rev Colombiana Ciencias Qumico-Farmacuticas. 2002; 31: 51-60.

140

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

25. Jaimes C, Surez Z, Aristizbal F et al. AFLP fingerprinting of Colombian Clostridium spp. strains, multivariate data analysis and its taxonomical implications. En: 157th Meeting of the Society for General Microbiology [online]. 2005; Abstracts: p. 37. Disponible en URL:http://www.sgm.org.uk/meetings/pdfabstracts/keele2005abs.pdf. 26. Surez Z, Montoya D, Chaves C et al. Anlisis multivariado de tcnicas de caracterizacin molecular genotpicas y fenotpicas, como contribucin a la taxonoma de trece cepas nativas de Clostridium sp. En: Memorias del XIV Simposio Nacional de Estadstica: Estadstica Multivariada (Cartagena de Indias). 2004; 1: 76-82.
27. Daniel R, Streit W. Metagenomik, mehr als nur die Suche nach neuen

Biokatalysatoren und Wirkstoffen. Biospektrum. 2004; 1: 39-41.


Tabla 1 Secuencias de IBUN 22A reportadas en GenBank 156.0
Accession Nr. GenBank DQ228722 DQ228721 DQ225170 Definicin Longitud (pb) 342 591 716 Clon (librera genmica) 020803-16 pBs25 020801-30

Secuencia parcial de un gen putativo Transcetolasa (tktC) Secuencia completa de un gen putativo Transcetolasa (tktC) Secuencia parcial de un gen putativo PurinaNucleosido Fosforilasa (deoD, segmento duplicado) Secuencia parcial de un gen putativo PurinaNucleosido Fosforilasa (deoD, segmento duplicado) Segmento intergnico Segmento intergnico Secuencia parcial de un gen putativo para un Factor de Elongacin Tu (tufA) Secuencia completa de un gen putativo para la protena de biosntesis del Cofactor Fe-Mo de la Nitrogenasa (nifN) Secuencia parcial de un gen putativo Glicerol Deshidratasa (dhaB1) Secuencia parcial del gen 16S rRNA

DQ228723

665

pBs25

DQ223968 DQ223967 DQ060835 DQ002548

1002 951 228 808

012901-20 011901-2 pBsIBUN22A-3 pBsIBUN22A-2

AY968605 AJ289704

851 1451

pBsIBUN22A-1 Amplificacin directa del genoma con primers pE y pJ

141

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El Interactoma Revisado The Interactome. A Review


Moreno, Pedro A1* y Vlez, Patricia E. 2 *pedroam@eisc.univalle.edu.co 1) Escuela de Ingeniera de Sistemas y Computacin. Universidad del Valle, Santiago de Cali, Colombia. 2) Departamento de Biologa. Universidad del Cauca, Popayn, Colombia.

Resumen

En esta era post-genmica y de biologa de sistemas, el tema central, a nivel celular, es el estudio de los omas (grupo de molculas que determinan un genoma, o un transcriptoma, proteoma, interactoma, metaboloma, fisioma, etc.) de manera integrativa. En ste contexto, el interactoma codificado por el genoma humano fue revelado recientemente, como una malla conformada por ms de 70.000 interacciones binarias (Gandhi T. K. et al., 2006. Nat. Genet. 38:285-93). Esta super-red fue comparada con los interactomas de la levadura, gusano y mosca permitiendo descubrir 42 interacciones compartidas y el resto propias de cada especie. En especial, los autores pudieron identificar subredes asociadas con algunas enfermedades humanas. Estas subredes se constituyen en blancos potenciales para el manejo frmaco terapetico de estas enfermedades. Del entendimiento de cmo el interactoma se regula (operoma) se espera entender los estados saludables y patolgicos de los fisiomas y morfomas de los rganos que conforman el ser humano. Por otra parte, existe un gran inters en conocer el interactoma de los principales parsitos eukariotas responsables de algunas de las enfermedades infecciosas ms graves que atacan al ser humano.
Palabras Clave: Post genmica, Interactoma, genoma humano, interacciones compartidas, operoma, fisioma Abstract

In this postgenomics era and systems biology approach the central focus, at a cellular level, is to study the omas (set of molecules determining a genome, or a transcriptome, proteome, interactome, metabolome, physiome, etc.) of integrative manner. In this context, the interactome encoded by the human genome was recently revealed as a network consist of >70,000 binary interactions (Gandhi T. K. et al., 2006. Nat. Genet. 38:285-93). Comparison of this super-network with yeast, worm, and fly interactomes allowing identifying 42 shared interactions plus other specie-specific sub-networks. Specially, the authors were able in identifying several sub-networks associated with some human illnesses. The subnetworks sets are potential targets for a pharmaceutical and therapeutical management of illnesses. By studying how the interactome works (operome) it is expected to understand the health and disease states of physiomes and morphomes of the principal organs of the human being. On the other hand, a great

142

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

interest there exists in knowing the eukaryotes parasite interactomes responsible for many of infectious illnesses own of the human being.
Keywords: postgenomics, interactome, human genome, shared interactions, operome, physiome,

Moreno T, Pedro A. Colombia. Bilogo (Universidad Nacional de Colombia). Ph.D. en Biologa Celular y Molecular (University of Houston, TX, Estados Unidos). Docente Universidad del Valle. 20 publicaciones (10 internacionales y 10 nacionales) y 3 libros nacionales. Lneas de investigacin: genmica, bioinformtica, biologa celular y molecular, geometra fractal aplicada. E-mail: pedroam@eisc.univalle.edu.co

143

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El Core de Genes de las Cyanobacterias y el Origen de la Fotosntesis The Cyanobacterial Genes Core and the Origin of Photosynthesis
Moreno, Pedro A .1*, Rodrguez A. Adrin C.2, y Vlez, Patricia E.2 *pedroam@eisc.univalle.edu.co 1) Escuela de Ingeniera de Sistemas y Computacin. Universidad del Valle, Santiago de Cali, Colombia. 2) Departamento de Biologa. Universidad del Cauca, Popayn, Colombia.

Resumen

La fotosntesis es uno de los procesos bioqumicos y celulares ms estudiados. En esta era post-genmica la fotosntesis no se ha escapado al escrutinio comparativo funcional y estructural. El foco de atencin han sido las cianobacterias debido a que posiblemente estas fueron los primeros organismos fottrofos celulares que poblaron los mares y oxigenaron posteriormente la atmsfera Arquea de la Tierra primitiva. De los trabajos pioneros en genmica y bioinformtica comparada de las cianobacterias los trabajos de Martin et al., 2003. Photosynthesis Research. 75: 211 221 y de Mulkidjanian A. Y. et al., 2006. PNAS. 103:1312613131 dan luces acerca del nmero de genes comunes de las cianobacterias y sus implicaciones a la hora de explicar el origen de la fotosntesis. La siguiente revisin bibliogrfica basada en estos dos artculos muestra cmo estas metodologas, enfoques y resultados responden a los interrogantes planteados y direccionan futuras investigaciones.
Palabras clave: Cyanobacterias, fotosntesis, genes compartidos, COG core, procianobacterias. Abstract

A previous study showed the minimal number of essential genes shared by the cyanobacteria (Martin et al., 2003. Photosynthesis Research. 75: 211 221). Authors found 181 common genes from which 44 genes are related with the photosynthesis process. Surprising, 75% of them are unknown genes. A carefully study shows that these 44 genes can not explain the whole photosynthesis process and possibly we unknown much about it in spite of the photosynthesis has been one of the most studied process. On the other hand, recent evidence (Mulkidjanian A. Y. et al., 2006. PNAS. 103:1312613131) revealed (by COG: Cluster Orthologous Group) the cyanobacterial genome core and the origin of photosynthesis. Authors found 1054 protein families encoded in at least 14 cianobacteria. The majority of the core genes are involved in central cellular functions that are shared with other bacteria; 50 family core is specific for cyanobacteria, whereas 84 are exclusively shared by cyanobacteria and plants. These observations, coupled with recent geological data suggest that photosynthesis originated in the cyanobacterial lineage under the selective pressures of UV light and depletion of electron donors. That is, under anoxygenic photosynthesis using a photosystem I-like

144

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

reaction center. In this way, the first phototrophs were anaerobic ancestors of cyanobacteria (procyanobacteria).
Keywords: cyanobacteria, procyanobacteria.

photosynthesis,

common

genes,

core

COG,

Moreno T, Pedro A. Colombia. Bilogo (Universidad Nacional de Colombia). Ph.D. en Biologa Celular y Molecular (University of Houston, TX, Estados Unidos). Docente Universidad del Valle. 20 publicaciones (10 internacionales y 10 nacionales) y 3 libros nacionales. Lneas de investigacin: genmica, bioinformtica, biologa celular y molecular, geometra fractal aplicada. E-mail: pedroam@eisc.univalle.edu.co

El Core de Genes de las Cyanobacterias y el Origen de la Fotosntesis Introduccin

Las cianobacterias son uno de los grupos de organismos sobre este planeta que se ramificaron inicialmente, Figura 1. Ellos son los nicos procariotes conocidos que llevan a cabo la fotosntesis oxignica y no hay duda de que ellos juegan un papel clave en la formacin del oxgeno atmosfrico desde hace 2.3 Ga (gigaos), Figura 2. A pesar de su importancia geoqumica, ambiental y filogentica, muchos de los aspectos de la vida celular de las cianobacterias permanecan oscuros hasta hace poco. La comparacin y anlisis de las dos investigaciones resumidas en la presente revisin muestra la manera como el problema del origen de la fotosntesis se esta develando recientemente.

Fig. 1. Arbol de la vida. Las cianobacterias posiblemente emergieron hace aproximadamente 2700 megaaos (Ma). (Adaptado de Moreno et al., 2003).

145

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Los Genes Firma de las Cianobacterias (Martin et al., 2003)

La capacidad para secuenciar genomas completos hace posible examinar la distribucin de los genes de un modo bien detallado. La finalizacin del genoma del Synechocystis 6803 (Kaneko et al. 2001) hizo posible por primer vez la disponibilidad de todo el set completo de genes de una cianobacteria. A fin de determinar cuales de estos genes podran contribuir para un genotipo cianobacterial, los autores en Martin et al., 2003 compararon el genoma cianobacterial de Synechocystis 6803 contra otros siete genomas disponibles para ese entonces. Con base en comparaciones de ARNr, estos ocho genomas representan cinco de los principales linajes en la corona del rbol de las cianobacterias (Turner et al. 1999), Figura 3.

Fig. 2. A) Segn Knoll, 1999 la vida se desarroll durante las condiciones ms extremas de la joven Tierra. B) El primer salto en los niveles de oxgeno fue un reto txico para la vida y pudo haber acabado con el efecto invernadero que sostena la incipiente vida. Existe un fuerte acuerdo que la deteccin de biomarcadores de membranas en los sedimentos bien preservados revelan la presencia de las cianobacterias hace 2.7 Ga (giga-aos) (Brocks et al., 1999), las cuales pudieron ser responsables del incremento del oxgeno en la atmsfera Archaea hace 2.2 - 2.3 Ga (Catling et al., 2001).

Fig. 3. rbol filogentico representativo de las cianobacterians que muestra la posicin de las cepas cuyos genomas completos han sido secuenciados. El rbol de ARN 16S cianobacterial fue construido a partir de 1063 nucletidos alineados inambiguamente bajo el parmetro Kimura-2 y usando el algoritmo Neighbor Joining para hacer rboles (Hall 1999). Las ramas son designadas con la nomenclatura de niveles de orden (Turner et al. 1999 con modificaciones). Los nombres resaltados indican la posicin de las cepas cuyos secuencias genmicas fueron disponibles pblicamente en Octubre de 2002 y usados en el trabajo de Martin et al., 2003.

Materiales y Mtodos

Inicialmente se examin el contenido de genes de ocho genomas cianobacteriales completamente secuenciados. Los genomas fueron Synechocystis sp. PCC 6803 (3.6 MB) (Kaneko et al. 2001), Anabaena PCC 7120 (7.2 MB), y Thermosynechococcus elongates BP-1 (2.6MB) disponibles

146

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

en el http://www.kazusa.or.jp/cyano/cyano.html, y del SynechococcusWH8102 (2.72MB), Prochlorococcus marinus MED4 (1.6 MB), Prochlorococcus marinus MIT9313 (2.4 Mb), Nostoc punctiforme (9.2MB), y Trichodesmium erythraeum IMS101 (6.5 MB) disponibles en el http://jgi.doe.gov/JGI_microbial/html/index.html. Algunas de estas secuencias estuvieron disponibles en formato de borrador. En el tiempo en que el trabajo fue llevado a cabo, el Synechocystis sp. PCC 6803 era el nico genoma cianobacterial completamente anotado entre todos y fue usado como referencia para llevar a cabo este trabajo. Con la excepcin de Anabaena PCC 7120, cada genoma previamente haba sido intercomparado con otros siete genomas. Los genes comunes en al menos siete genomas cianobacteriales fueron extrados y ensamblados en archivos individuales de secuencias usando la plataforma de Bioedit (Hall 1999). El alineamiento de secuencias multigen fue ejecutado usando CLUSTALW en Bioedit (Higgins et al. 1994) y los resultados examinados para verificar que los genes extrados a partir de varios genomas fueron probablemente homlogos y ortlogos. Cada uno de los genes conservados fue luego intercomparado contra la base de datos de protenas del National Center for Biotechnology Information (NCBI) mediante el uso del BLASTP. Las tablas BLASTP de marcadores (scores) fueron examinadas individualmente para cada organismo. Las protenas con valores-E <1010 para especies ms bien que para cloroplastos o eucariotes que contienen cloroplastos fueron agrupadas a partir de la lista. Debido a que el sitio del NCBI no incluye datos a partir de los genomas de varias bacterias fotosintticas, los autores examinaron separadamente los genes residuales con afinidad con los genes de los genomas Chlorobium tepidum, Rhodobacter sphaeroides, Rhodopseudomonas palustris, y Rhodospirilumrubrum, y Chloroflexus auranticus con un punto de corte esperado de valores-E < 106. Los autores tambin examinaron el grupo de los 181 genes firma para los operones putativos especficos de cianobacterias.

Resultados y Discusin

Una intercomparacin del contenido genmico de estos ocho genomas, permiti definir un grupo de trabajo de genes firma (ver Tabla 1 en Martin et al., 2003). Este grupo contiene 181 genes que fueron encontrados entre los casi 1000 ORFs encontrados en el genoma del Synechocystis 6803 (Kaneko et al. 2001). La Tabla 1 muestra 43 genes asociados con alguna funcin. Sorprendentemente se encontraron varios genes faltantes de la fotosntesis anxica y oxignica, si consideramos que los genes bsicos para tal efecto son 62 genes como se deduce de la Figura 4. Difcil de creer este resultado si pensamos que la fotosntesis es uno de los procesos ms estudiados desde los descubrimientos bioqumicos iniciales desde los aos 50s hasta el presente. Algn problema en el tipo de metodologa utilizada? Problemas de anotacin en los genomas? Cuestin de temporalidad en la dinmica de la aparicin de los resultados? El siguiente trabajo de los genes core de Mulkidjanian et al., 2006 nos cuenta lo sucedido al respecto.

147

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 1. Lista de 43 genes firma cianobacteriales asociados con alguna funcin (Martin et al., 2003).

Fig. 4. Los cuatro componentes principales de la fotosntesis y los genes (y nomenclatura) relacionados: los fotosistemas I y II, el complejo b6/f y el complejo ATPasa. Adaptado de la Enciclopedia de Kyoto de Genes y Genomas.

148

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Los Genes Core de las Cianobacterias (Mulkidjanian et al., 2006)

Por otra parte, recientemente, en octubre de 2006 se determin el core de genes cianobacteriales y el origen de la fotosntesis (Mulkidjanian et al., 2006). A diferencia del trabajo anterior de Martin et al., 2003, en los ltimos aos se han determinado las secuencias de genomas completos de varias cianobacterias de agua dulce y marinas, permitiendo amplios datos para el anlisis sistemtico. Por ejemplo, una comparacin de los genomas completos de tres cepas diferentes de Prochlorococcus spp. demostr una amplia variedad de complementos de genes dentro de este gnero debido a una masiva reduccin del genoma en algunos linajes. Estudios de los genes compartidos por las cianobacterias y otros organismos fotosintticos permiti delinear el set de organismos fotosintticos y demostr una extensin significativa de transferencia lateral del gen (TLG) entre las bacterias fototrficas. Un hecho sorprendente que resulta de este ltimo trabajo es que los genes para la mayora de las protenas implicadas en la fotosntesis no estuvieron presentes en el set de genes fotosintticos. En el trabajo de Mulkidjanian et al., 2006, los autores compararon las protenas codificadas en 15 genomas cianobacteriales completos, incluidos los cinco genomas de Prochlorococcus spp., para definir el set mnimo de genes comunes para todas las cianobacterias y trazar la conservacin de estos genes entre otros taxas. Los autores analizaron las afinidades filogenticas de los genes en este set y los genes fotosintticos candidatos identificados no reconocidos previamente. Ellos usaron estos genes para direccionar la identidad de los primeros fottrofos, un objeto de discusin intensa en los aos recientes. Finalmente, los autores demostraron que las cianobacterias y las plantas comparten un nmero de genes relacionados con la fotosntesis que estaban perdidos en genomas de otros fottrofos. Esta observacin sugiere, en concordancia con la evidencia geolgica, que los ancestros (ahora extintos) anoxignicos de las cianobacterias son los candidatos ms plausibles de los fotoauttrofos ancestrales, los cuales diseminaron aparentemente parte de su aparato fotosinttico a otras bacterias mediante TLG.

Materiales y Mtodos

Los sets de protenas para Anabaena (Nostoc) sp. PCC 7120, Synechocystis sp. PCC 6803, T. elongatus BP-1, y Prochlorococcus marinus SS120 fueron extradas a partir del GenBank (www.ncbi.nlm.nih.gov) y agrupados usando el mtodo de cluster de grupo ortlogo (COG). Las protenas a partir de 11 genomas cianobaceriales ms fueron asignados al cluster de protenas resultante (CyOGs) usando una modificacin del procedimiento COGNITOR (49), seguido por una verificacin manual y un anlisis de protenas multidominio. Los CyOGs que fueron representativos perdidos en una, dos o tres especies, como tambin los CyOGs que contenan protenas ms corta de 100 residuos de aminocidos fueron comparadas con la traduccin correspondiente de secuencias de ADN genmicos mediante TBLASTn. La deteccin de homlogos de las protenas de cianobacterias en organismos de otros taxas fue ejecutada usando buscadores Blastp contra la base de datos de protenas no redundante del NCBI. Las distribuciones filogenticas de homlogos para cada CyOG fueron analizadas comparndolas con familias de protenas procariotas y eucariotes mediante chequeo

149

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

bidireccional de los mejores hits y arquitectura de dominio. Los CyOGs especficos de Cianobacteria fueron definidos como aquellos constitudos por protenas que no recuperaron hits nocianobacteriales despus de tres iteraciones de corridas PSI-BLAST con la inclusin por defecto del parmetro E = 0.001.

Resultados y Discusin Familias de protenas nicas y comunes en las Cianobacterias. El agrupamiento de las protenas codificadas por los 15 genomas cianobacteriales completos produjo 3.188 familias de protenas [clusters cianobacterial de grupos ortlogos de protenas (CyOGs)] con miembros codificados por al menos tres genomas. De estos CyOGs, 892 fueron codificados por cada genoma cianobacterial, y 162 ms fueron codificados en 14 de 15 genomas. El set combinado de 1.054 CyOGs (que esta perdido en tan solo un genoma cianobacterial) es referido a partir de aqu como el core CyOGs. Predeciblemente, las cianobacterias con genomas pequeos estn sobrerrepresentadas en el core CyOGs comparado con las especies con genomas ms grandes. As, el core CyOGs incluye del 5266% de todas las protenas codificadas por el Prochlorococcus spp. y solamente el 25% de las 7.120 protenas de Anabaena sp. PCC. Anlisis de los CyOGs que aparentemente no tenan miembros en uno o ms genomas cianobacteriales revel 31 protenas (principalmente cortas) que son codificadas por los genomas respectivos pero no fueron detectadas por los programas buscadores de genes, tales como las subunidades VI (PetL) y VII (PetM) del complejo b6/f del citocromo. Los autores tambin encontraron genes de longitud completa que fueron anotados como pseudogenes en las sumisiones del genoma original y cuyos productos no fueron incluidos en las bases de datos de las protenas.

El criterio usado para definer el core CyOGs condujo a la exclusin de muchas protenas cianobacteriales previamente caracterizadas, como por ejemplo, las protenas implicadas en la formacin del filamento y la diferenciacin del heterocystes de las picocianobacterias marinas unicelulares. Ciertos componentes del fotosistema I (PSI) y II (PSII) estn tambin perdidos en el set core. Por ejemplo, la subunidad extrnseca PsbU de 12-kDa y el citocromo de bajo potencial c550, PsbV, los cuales contribuyen a la estabilizacin del complejo de generacin de oxgeno, se encuentran perdidos en los cuatro genomas del Prochlorococcus. Por el contrario, los componentes del PSI, PsaI, PsaJ, y PsaK y el componente del PSII, PsbZ, que se encuentran perdidos en la cianobacteria sin tilacoide, Gloeobacter violaceus, se encuentran en todas los genomas cianobacteriales y de ah que fueron excluidas del set core, como tambin plastocianin, y el donador de electrones para PSI, el cual no se encuentra en Thermosynechococcus elongatus (Tabla 2). Existen pocos genes regulatorios en el set core en los genomas de las picocianobacterias marinas debido a la pobre representacin de genes implicados en censar el medio ambiente, la transduccin de seales y su adaptacin a medios ambientes relativamente constantes y de pocos nutrientes. G. violaceus fue el nico organismo simple con 85 de 162 genes core CyOGs que no tuvieron representacin. De las protenas que no tuvieron representacin en el core CyOGs se encontraron 31 en una de las cepas de Prochlorococcus, 22 en el termfilo T. elongatus y 20 en el Synechocystis sp.

150

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La mayora de los core CyOGs comprenden clusters ajustados, con varias protenas cianobacteriales que muestran similaridades mucho ms altas con cada una de las otras que con cualquier otra protena de otros organismos (Fig. 2, publicada en el sitio de la red del PNAS). Sin embargo, ciertas protenas estn distantemente relacionadas con los miembros del CyOG y podran representar ejemplos de TLG reciente en el linaje correspondiente.
Tabla 2. Distribucin de genes relacionados con la fotosntesis en organismos fototrficos: 15 cianobacterias, plantas, Chlorobium tepidum (Ctep), Rhodopseudomonas palustris (Rpal), Chloroflexus aurantiacus (Caur), y Heliobacillus mobilis (Hmob). RubisCO, ribulosa-1, 5-bisfosfato carboxylasa_oxygenasa; Gvio, Gleobacter violaceus; Pmar, Prochlorococcus marinus; Telo, Thermosynechococcus elongatus; Y, gen presente; , gen ausente (Mulkidjanian et al., 2006).

Afinidades Filogenticas de los Genes Core Cianobacteriales. De los 1.054 CyOGs core, 936 son compartidos con otras bacterias. Este set incluye protenas principalmente caseras (housekeeping) que estn implicadas en la replicacin del ADN, la transcripcin, la traduccin, rutas metablicas claves y metabolismo energtico. Aproximadamente 50 CyOGs del core compartidos con otras bacterias estn formados por protenas hipotticas conservadas cuyas funciones son desconocidas y no pueden ser predichas a partir de similaridades de secuencias. Casi un tercio de las familias que son compartidas con otras bacterias (291 CyOGs) son tambin codificadas por genomas de plantas.

Ochenta y cuatro CyOGs core son compartidas exclusivamente con plantas, tales como Arabidopsis thaliana y Oryza sativa, el alga roja Cyanidioschyzon merolae, y la diatomea Thalassiosira pseudonana. Aproximadamente la mitad de estas protenas tienen funciones conocidas que participan en la fotosntesis como componentes del PSI, PSII, sistemas de cosecha de luz, o membranas de la superfamilia de protenas temprana

151

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

alta (ELIP) y altamente inducibles por luz (HLIP) (Tabla 1). Amn de otras afinidades encontradas.
Los Genes Firma Cianobacteriales versus el Grupo Core

Debido al alto nivel de secuencias conservadas entre protenas ortlogas a partir de cianobacterias diferentes (Fig. 2), el delineamiento del cluster cianobacterial de genes es una tarea relativamente directa. En varios estudios iniciales, este delineamiento fue llevada a cabo para tales propsitos mediante una anotacin genmica mejorada, mediante delinear la firma genmica cianobacterial (Martin et al., 2003), el clculo del nmero de genes cianobacteriales en plantas, y el trazado de la evolucin del centro de generacin de oxgeno PSII. Sin embargo, todos estos estudios dependen sobre un set arbitrario, usualmente conservativo y de similaridades de valores de umbral (threshold) para inferir ortologa. Como se describi previamente, el enfoque de los clusters de grupos ortlogos (COG) no depende de tales umbrales, es ms flexible y permite un delineamiento de familias de protenas con bajos y altos niveles de similaridad. Sin embargo, este procedimiento puede ser usado de manera confiable con genomas completos, por lo cual las secuencias de genomas cianobacteriales no finalizados no fueron incluidos en el trabajo de Mulkidjanian et al., 2006. Una comparacin de los ocho genomas, dos finalizados y seis en progreso se us para delinear la firma genmica de 181 protenas cianobacterial especficas (Martin et. al., 2003). Una comparacin del core CyOGs con esta firma genmica mostr 131 de 181 familias de protenas firma que sobrevivieron a la inclusin de los genomas de las tres cepas de Prochlorococcus spp. y cuatro cepas ms de Synechococcus spp. y las cuales estuvieron representadas en el core CyOGs (Table 3). Por el contrario, el anlisis de Mulkidjanian et al., 2006 identific 26 CyOGs sinapomrficos que no fueron incluidos en la firma genmica cianobacterial del trabajo de Martin et al., 2003. Las 50 familias que no hicieron parte del core CyOGs no estaban presentes en G. violaceus y en dos cepas de Prochlorococcus. Adicionalmente, de los 131 CyOGs del core, se han encontrado al menos 19 homlogos cercanos con genomas bacteriales y arqueobacteriales secuenciados recientemente. Este hallazgo es fuertemente sorpresivo dado el rpido crecimiento de las bases de datos de protenas y la transferencia lateral a gran escala entre varios linajes. Existe poca duda que la lista corriente de los 50 CyOGs especficos de cianobacterias (Tabla 6) pronto disminuir an ms.

152

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 3. Comparacin entre los genes firma cianobacteriales y el core de genes.

Origen de la Fotosntesis y Transferencia lateral del Gen. La disponibilidad del core de genomas de las cianobacterias ha permitido revaluar el origen de la fotosntesis con base en la (bacteria)clorofila, las cuales adems de las cianobacterias se encuentra en el grupo Bacteroidetes-Chlorobi (e.g., C. tepidum), Firmicutes (e.g., H. mobilis), Proteobacteria (e.g., R. palustris), -Proteobacteria (e.g., Rubrivivax gelatinosum), Proteobacteria (e.g., Chromatium vinosum), y Chloroflexi (e.g., C. aurantiacus). Los primeros dos filos tienen centros de reaccin para la fotosntesis (CRs) similares al PSI cyanobacterial y que usan clusters de FeS de bajo potencial como los aceptores de electrn (RC1 type). Los CRs de las proteobacterias y Chloroflexi (Tipo-CR2) usan quinonas unidas como ltimos aceptores de electrn y son similares al PSII cianobacterial (aunque falta el complejo de generacin de oxgeno). Los evolucionistas han aceptado que la evolucin de los genes de la fotosntesis estuvo acompaada por una diseminacin de genes mediante TLG entre los diferentes grupos de bacterias. Esta idea es sustentada por la presencia aparente de representantes no fotosintticos en todos estos filos, excepto en cianobacterias; por el hecho de que las protenas relacionadas con la fotosntesis son a menudo codificadas por un simple superopern; por el anlisis filogentico; y por la observacin de que los genes pueden ser transducidos por los cianofagos.

Estos y otros estudios contribuyeron al entendimiento del origen de la (bacterio)clorofila pero no soportan el origen y la filogenia de la fotosntesis en general. Por el contrario, el estudio reciente asumio que la topologa del rbol filogentico construido par alas enzimas de la biosntesis de la (bacterio)clorofila si es representativo de la filogenia de la maquinara fotosinttica como un todo. Especficamente, la observacin de los autores de que las proteobacterias se ramificaron primero en el rbol fueron interpretado como evidencia de que la fotosntesis originalmente se desarroll en las bacterias prpuras. Sin embargo, estas topologas no han sido observadas por otros investigadores. As los genes antiguos en las proteobacterias modernas pudieron

153

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

haberse originado en otra parte y las bacterias prpuras pudieron haberlo adquirido mediante TLG. Los datos en la Tabla 2 muestran que solamente algunas enzimas de la biosntesis de la (bacterio)clorofila se encuentran en todos los prottrofos, junto con las observaciones de una extensiva TLG y la recombinacin de genomas cianobacteriales, limita la contribucin del enfoque estndar basado en rboles aplicado al problema del origen de la fotrosntesis. Anlisis de los patrones filogenticos de las protenas fotosintticas claves podra ser ms informativos para este propsito.
Cules bacterias fueron los primeros fottrofos? En los pasados aos, se ha propuesto que la fotosntesis emergi a partir de Heliobacillus, Chlorobium, Chloroflexus, o linajes protobacteriales. Aunque los argumentos en favor de las proteobacterias no parecen validos (ver arriba), parece ser que algunas evidencias soportan a cada uno de los otros candidatos. As, los CRs homodimricos primitivos del tipo I no se encuentran en Chlorobium y Heliobacillus, mientras que Chloroflexus se cree fue un linaje inicial de ramificacin de los prottrofos. Las cianobacterias usualmente no son consideradas explcitamente como un linaje en el cual la fotosntesis podra haber emergido debido a la gran complejidad de sus maquinara fotosinttica. Este hecho, sin embargo, puede ser interpretado de ambos modos. De hecho, el nmero total de genes implicados en la fotosntesis en cianobacterias es mucho mayor que en cualquier otro procariote fottrofo (Tabla 2). Solamente las cianobacterias poseen centros de reaccin de ambos tipos, CR1 y CR2, y, adems los sistemas de cosecha de luz que contienen ficobilinas y clorofila tienen protenas de unin a clorofila cuya funcin se cree es disipar la energa de la luz para prevenir el foto dao (HLIPs; ver Tabla 2). As, la mayora de los genes fotosintticos deben haber primero aparecido de cualquier manera en el linaje de las cianobacterias (Fig. 5). Este hallazgo sugiere que lo mismo podra ser cierto para los genes del CR core y que los ancestros de las cianobacterias (procianobacterias o pro-protocianobacterias) deberan tambin ser considerados candidatos para el papel de los primeros fottrofos.

Conclusiones

1. Las cianobacterias pudieron haberse originado a partir de unas procianobacterias. 2. El origen de la fotosntesis podra estar relacionado inicialmente con el establecimiento del CR1 en condiciones anxicas. 3. La TLG pudo dar origen a diferentes tipos de linajes de prottrofos, antes del establecimiento de las cianobacterias modernas. 4. Slo hasta que no se alcanz un nmero significativo de genes que dieran cuenta de los tres principales componentes que conforman el aparato fotosinttico no comenz la oxigenacin de la atmsfera arquea.

154

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Fig. 5. Distribucin de los genes fotosintticos en diferentes linajes de fottrofos y la direccin de la transferencia lateral propuesta. Los fila fototrficos estn representados de acuerdo con la profundidad de su localizacin en mantos microbianos modernos (y quiz primordiales). Las cajas redondeadas muestran la extensin de transferencia del gen fotosinttico entre los fila con los nmeros de genes (CyOGs) transferidos e indicados en parntesis. Las cajas entrelineadas muestran las grandes invenciones relevantes a la fotosntesis que ocurrieron por fuera del linaje (pro-) cianobacterial.

Referencias

Brocks J.J., Logan GA, Buick R and Summons RE. 1999. Archean molecular fossils and the early rise of eukaryotes. Science. 285: 1033-1036. Catling D.C., Zahnle KJ and McKay C (2001) Biogenic methane, hydrogen escape, and the irreversible oxidation of early Earth. Science 293: 839-843. Kaneko T, Nakamura Y, Wolk CP, Kuritz T, Sasamoto S, Watanabe A, Iriguchi M, Ishikawa A, Kawashima K, Kimura T, Kishida Y, Kohara M, Matsumoto M, Matsuno A, Muraki A, Nakazaki N, Shimpo S, Sugimoto M, Takazawa M, Yamada M, Yasuda M, Tabata S. 2001. Complete genomic sequence of the filamentous nitrogen-fixing cyanobacterium Anabaena sp. strain PCC 7120. DNA Res. 8:205-13; 227-53. Knoll, A.H. 1999. PALEONTOLOGY:Enhanced: A new molecular window on early life. Science 285: 1025-1026. Martin, K. A., Siefert, J. L., Yerrapragada, S., Lu, Y., McNeill, T. Z., Moreno, P. A., Weinstock, G. M., Widger, W. R. & Fox, G. E. (2003) Photosynth. Res. 75, 211221. Mulkidjanian A. Y. Koonin, E., Makarova, K. S., Mekhedov, S. L., et al., 2006. The cyanobacterial genome core and the origin of photosynthesis. PNAS. 103:1312613131.

155

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Bioinformtica para Biologos, Qumicos, Ingenieros, y Profesionales de Ciencias de la Salud Bioinformatics for Biologists, Chemists, Engineers, and Professionals in Health Sciences
Moreno, Pedro A. 1*, Vlez, Patricia E.2, Tischer, Irene1 *pedroam@eisc.univalle.edu.co 1) Escuela de Ingeniera de Sistemas y Computacin. Grupo GEDI, Grupo de Bioinformtica y Grupo BIMAC. Facultad de Ingeniera. Universidad del Valle, Santiago de Cali, COLOMBIA. 2) Departamento de Biologa. Grupo de Biologa Molecular, Ambiental y Cncer (BIMAC)*. Facultad de Ciencias Naturales, Fsicas Exactas y la Educacin. Universidad del Cauca, Popayn, COLOMBIA.

Resumen
Tres disciplinas integradoras y relacionadas vienen revolucionando el conocimiento y la investigacin interdisciplinaria en las fronteras de las ciencias de la vida: la Genmica, la Bioinformtica y la Biologa de Sistemas. En este artculo se revisarn algunos conceptos que fundamentan estas disciplinas y algunos ejemplos sobresalientes de las mismas a fin de estimular a bilogos, qumicos, ingenieros, y profesionales de las ciencias de la salud a considerar el estudio de estas reas como un complemento a su formacin profesional, laboral e investigativa y de otra parte, como una contribucin a las instituciones oficiales y privadas del pas a estudiar la posibilidad de crear centros de investigacin y/o programas acadmicos de pregrado y postgrado dirigidos a formar profesionales en dichas reas.

Palabras claves: Bioinformtica, genmica y biologa de sistemas. Abstract

Genomics, Bioinformatics, and Systems Biology are three integrative and related disciplines that are revolutionizing the knowledge and interdisciplinary research at the sciences frontier of life. In this paper we will review some fundamental concepts about them and outstanding examples in order to encourage biologists, chemists, engineers, and health professionals to consider their study as part of their professional, labor, and research formation. On the other hand, this article is a contribution to the private and official institutions to study the possibility to create academic and research centers or academic programs (pre and postgraduate) addresses to prepare professional in such as areas.
Keywords: bioinformatics, genomics, systems biology, academics pensum.

Moreno T., Pedro A. Colombia. Bilogo (Universidad Nacional de Colombia). Ph.D. en Biologa Celular y Molecular (University of Houston, TX, Estados Unidos). Docente Universidad del Valle. 20 publicaciones (10 internacionales y 10 nacionales) y 3 libros

156

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

nacionales. Lneas de investigacin: genmica, bioinformtica, estructura molecular de genes y geometra fractal para modelar genomas. E-mail: pedroam@eisc.univalle.edu.co
Bioinformtica para Bilogos, Qumicos, Ingenieros, y Profesionales de Ciencias de la Salud

1. Introduccin
Inicialmente abarcaremos dos marcos conceptuales relevantes al estudio de la bioinformtica y a las nuevas disciplinas y propuestas a plantear. 1A. Niveles de resolucin en qumica y biologa Segn una encuesta realizada por los Norteamericanos R. Hazen y J. Trefil a la comunidad cientfica-acadmica de las principales universidades del mundo, la visin que tenemos del mundo fsico se resume en 20 ideas fundamentales (Science, 1991). Cuatro de estas dan cuenta de toda la biologa. Estas son: 1) La clula es la unidad fundamental de la vida orgnica. 2) Toda la informacin biolgica se encuentra cifrada (en parte) en el cdigo gentico, el nexo que existe entre la transferencia de la informacin gentica del ADN (Acido DesoxirriboNucleico) a las protenas (Fig. 1A). 3) La diversidad biolgica de criaturas que existen en la Tierra solo es explicable por efecto de la seleccin natural (teora controvertida por los creacionistas y el diseo inteligente). Y 4) toda la vida esta conectada, una clara alusin a la ecologa. Dentro de estas cuatro ideas principales, la segunda (el cdigo gentico) es quizs aquella que parece conectar en la base molecular de la vida las tres ideas restantes, es decir, la informacin gentica codificada en el genoma se encuentra casi toda escrita en un solo tipo de macromolcula, el ADN y la expresin de la misma a protenas da origen al proteoma (la coleccin de todas las protenas expresadas por la clula) (Fig. 1B) generando procesos, mecanismos y propiedades complejas de muecas rusas (esferas dentro de esferas) y de interacciones entre si con el medio ambiente a fin de producir las diferentes formas de lo viviente o fenotipos y a diferentes escalas de resolucin (Figs. 1C y 2).
Figura 1. La transferencia de la informacin gentica in vivo se da de dos maneras: interclulas o intraclula. En el primer caso, la informacin gentica se transfiere de una clula a otra mediante la replicacin del ADN durante la divisin celular. En el segundo, dicha transferencia se puede plantear sin la intervencin del medio ambiente en A) desde el gen a la protena, a travs de los procesos de transcripcin y traduccin o en B) mediante la expresin de cientos o miles de genes, desde el genoma hacia al proteoma. En C se observa como la interaccin del medio ambiente con el genotipo (o genoma) modula o altera la expresin del fenotipo.

La transferencia de la informacin del ADN a la protena (Fig. 1) se conoce como el Dogma Central de la Biologa Molecular. Este es el ncleo central o la primera mueca rusa enclavada en los niveles 9 y 10 de la Fig. 2 a partir de las cuales los bilogos, ingenieros, mdicos,

157

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

qumicos, y tericos se encuentran interesados en estudiar. Existen mltiples abordajes para analizar cada nivel de resolucin, no obstante, la bioinformtica ha pasado en menos de 10 aos a constituirse en una poderosa disciplina, llena de herramientas para el anlisis de los fenmenos biolgicos y en un campo atractivo para los tericos de otras disciplinas.
Figura 2. 1) La biosfera es la capa delgada de vida (de aprox. 20 Kms de espesor) que rodea la tierra y dentro de la cual se encuentra inmersa toda la vida orgnica como la conocemos. 2) Las comunidades de organismos se componen de diferentes poblaciones de organismos de especies diferentes, que van desde macroscpicas hasta especies microscpicas. 3) Las poblaciones las conforman individuos de una misma especie. 4) La especie esta aislada reproductivamente y solo es viable en ese contexto, es decir, cada especie se aparea y reproduce con los congneres de su misma especie. En la biosfera existen de 10 a 50 millones de especies de organismos diferentes. 5) El ser humano esta constituido por mltiples sistemas integrados, tales como, el sistema nervioso, el circulatorio, el reproductivo, el esqueletal, el locomotor, etc. 6) A su vez cada sistema se traslapa y constituye por diferentes rganos, por ejemplo, el sist. circulatorio lo conforman el corazn, los pulmones, las venas y las arterias con diferentes grados de ramificacin. 7) Los rganos del ser humano, por ejemplo, estn constituidos por ms de 200 tipos de tejidos diferentes. 8) A su turno, cada tejido lo componen millares de clulas. Cada clula es todo un microcosmo complejo. Se estima que el cuerpo humano esta conformado por 4 trillones de clulas. 9) Cada clula parece gobernada por el operoma, es decir, la interaccin regulada del genoma + transcriptoma + proteoma + medio ambiente, los cuales generan las diferentes propiedades que caracterizan a la clula viva, como la divisin celular, diferenciacin celular, adhesin celular, morfognesis celular, movimiento celular, envejecimiento celular, normalidad celular, patologa celular y muerte celular. 10) El genoma lo constituye la macromolcula del ADN, el material qumico con que estn hechos los genes y las regiones intergnicas; el transcriptoma lo conforman un set de macromolculas de ARNm y el proteoma, un set de macromolculas de protenas. 11) Tanto los cidos nucleicos (ADN y ARNm), como las protenas son polmeros constituidos por molculas o monmeros ms pequeos llamados, nucletidos y aminocidos, respectivamente. 12), 13), y 14) Ms all encontramos los tomos, la accin de las cuatro fuerzas fundamentales y los componente finales de la materia, los quarks.

1B. Ciencias cuantitativas Por otra parte, una amplia variedad de campos cuantitativos que incluyen, la estadstica, modelos matemticos y fsicos, tecnologas de la informacin, ciencias de la computacin, ingenieras (instrumentacin y hardware) y experimentacin hacen parte de las ciencias cuantitativas. La intercepcin de estas ciencias cuantitativas versus los niveles de resolucin en la biologa vistos en la Fig. 2 producen un amplio nmero de disciplinas y campos de estudios, solamente abordables de manera interdisciplinaria o mediante programas acadmicos diseados especficamente para satisfacer tales integraciones, Fig. 3.

158

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Figura 3.Como las ciencias cuantitativas y las tecnologas interactan con la biologa. Adaptado de Gibas y Jambeck, 2001.

2. La Genmica La genmica es el estudio del material gentico en los cromosomas de un organismo y su actividad, es decir, consiste en la secuenciacin, mapeo, descubrimiento y estudio de todos los genes de un organismo y sus interrelaciones. La genmica nace de la conjuncin de la tecnologa del ADN-recombinante (una rama especializada de la biologa molecular) que permite la manipulacin y el clonaje de los genomas de los organismos; la bioinformtica que facilita el anlisis computacional de toda esta informacin; y del desarrollo de las tecnologas de ingeniera genmica que aceleraron y abarataron los costos de secuenciacin. De esta manera, la genmica hace posible investigar los fenmenos biolgicos a una escala nunca antes posible, es decir, permite 1) conocer todos los genes en un genoma, 2) todos los transcritos (RNAm) en una clula y 3) todos los procesos metablicos en un tejido, (Fig. 4). Todos estos enfoques producen una masiva cantidad de datos, nicamente abordables mediante bioinformtica y biologa computacional. En suma, la genmica puede revelar todas las caractersticas estructurales y funcionales de un genoma en la medida de lo posible (Roos, D. Science. 2001. 291:1260).

159

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Figura 4. Para hacer genmica, inicialmente se parte del genoma o ADN total de un organismo de inters a secuenciar. Este ADN se fragmenta aleatoriamente en secuencias regulares de aprox. 500 pb de longitud. Los fragmentos luego son insertados y clonados en vectores de ADN-Recombinante, como plsmidos, (fagos, csmidos y/o BACs) a fin de construir una biblioteca de clonos. Los clonos son secuenciados generando una base de datos de miles a millones (segn el tamao del genoma) de secuencias cortas de ADN. Mediante un programa y un computador las secuencias de ADN son empalmadas y ensambladas en largos secuencias de contigs. Finalmente, todos los contigs son empalmados y la secuencia completa del genoma es determinada. Posteriormente, se da comienzo a un trabajo intenso en bioinformtica, genmica funcional y estructural y comparada a fin de predecir la localizacin y funcin exacta de todos los genes y productos de expresin.

Estado actual de la genmica y perspectivas. Desde el primer genoma secuenciado en 1995 hasta la fecha, se han secuenciado ms de 400 genomas bacterianos y 35 genomas de organismos eucariotes, incluido el genoma humano. Todo esto representa cerca de 100 Gpb (Giga pares de bases) almacenados en las bases de datos (http://www.ncbi.nlm.nih.gov), 1640.000 genes descubiertos y ms de 42.000 rutas metablicas identificadas (http://www.kegg.com). Para el 2008-2010 se prev la llegada de nuevos mtodos de secuenciacin de ADN acelerados y mucho ms econmicos. Para hacernos una idea de lo revolucionario que estos mtodos seran, considere que el genoma humano fue secuenciado por Celera Genomics en el transcurso de 1 ao por un grupo humano de ms de 200 investigadores, 900 secuenciadores (cada uno a un costo de US $250.000) y con una inversin de 300 millones de dlares. En contraste, uno de los mtodos nuevos de secuenciacin en desarrollo permitira que un solo operario secuencie el genoma humano en una hora y a un precio de US $1.000! (http://www.visigen.com). Sin duda esto revolucionar an ms el conocimiento de los cdigos de la vida de todos los organismos, permitiendo conocer en tiempo real la secuencia del genoma de cada ser vivo sobre la tierra y en cualquier fase de su ciclo de vida, permitiendo encontrar explicaciones an ms refinadas y exactas acerca de su naturaleza y desarrollando toda una nueva ciencia para la prevencin, el diagnstico y el tratamiento de todas las enfermedades. Para evaluar esta masiva cantidad de informacin en teras o petas de pares de bases de ADN se requerir del desarrollo de potentes abordajes tericos, matemticos y computacionales a fin de estudiar los genomas de millones de especies sobre la Tierra. En consecuencia, la bioinformtica desde ya es una disciplinas que ha empezado a revolucionar la biomedicina y la biotecnologa en gran manera.

160

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

3. La Bioinfomtica
La bioinformtica es una disciplina interdisciplinaria que nace de la interaccin de la biologa, las ciencias de los computadores y las tecnologas de la informacin. La ltima meta del campo es posibilitar el descubrimiento de nuevo conocimiento biolgico, as como crear una perspectiva global a partir de la cual emerjan nuevos principios unificadores en la biologa. En el comienzo del proyecto genoma humano en 1990, la bioinformtica tena mucho que ver con el mantenimiento y almacenamiento de bases de datos de informacin biolgica, secuencias de nucletidos y de aminocidos. El desarrollo de este tipo de bases de datos no solamente implic el diseo sino tambin el desarrollo de complejas interfaces con las cuales los investigadores podran tanto acceder a dicha informacin como tambin someter nuevos datos o revisarlos. Todas esta informacin debe ser combinada en un cuadro comprensivo de las actividades celulares normales, as los investigadores pueden estudiar como estas actividades son alteradas en diferentes estados de una enfermedad. Por consiguiente, el campo de la bioinformtica se ha dirigido hacia el anlisis e interpretacin de varios tipos de datos como secuencias de nucletidos y aminocidos, dominios de protenas y estructuras de protenas. El proceso actual de analizar e interpretar datos es conocido como biologa computacional, donde el modelaje y la simulacin son el ncleo central de dicho abordaje. Dentro de la bioinformtica y la biologa computacional se dan algunas sub-disciplinas importantes, como 1) el desarrollo e implementacin de herramientas que faciliten el acceso eficiente y el uso y el manejo de varios tipos de informacin. 2) Igualmente, el desarrollo de nuevos algoritmos (frmulas matemticas) y estadsticas con las cuales evaluar las relaciones entre los miembros de una gran cantidad de datos, tales como mtodos para la prediccin del gen dentro de una secuencia, prediccin de la estructura y funcin y agrupamiento de secuencias de protenas en familias de secuencias relacionadas, (Fig. 5).
Figura 5. La bioinformtica comienza con la recoleccin de datos experimentales. Los datos son convertidos en archivos de bases de datos, los cuales van a ser analizados por el bioinformtico, a travs del uso, diseo, y ejecucin de herramientas a fin de crear nuevas bases de datos de resultados que expliquen las regularidades observadas inicialmente en los datos experimentales.

La bioinformtica se ha expandido tambin al manejo, procesamiento, anlisis y visualizacin de grandes cantidades de datos genmicos, protemicos, tamizaje de drogas, y qumica mdica. Tambin incluye la integracin y minera (bsqueda detallada) en bases de datos siempre en expansin de estas disciplinas. Actualmente la bioinformtica busca soluciones que integren bases de datos pblicas y aplicaciones que definan los objetos biolgicos de inters de los investigadores, como por ejemplo, un algoritmo integrador donde residan las herramientas de minera y anlisis a disposicin de un usuario que pueda acceder, integrar, manipular y

161

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

visualizar los datos de una variedad de modos. En conclusin, las computadoras se usan en todas las etapas del proceso de investigacin en bioinformtica, desde la obtencin de datos de secuencia, pasando por la reconstruccin de genes hasta la prediccin de las funciones de las protenas a escala genmica. La genmica y la bioinformtica a su vez se han constituido en los pilares de la Era Postgenmica, era que pretende analizar la expresin de los genomas y proteomas a nivel masivo, donde los enfoques integrativos de interacciones cobran una gran importancia. La Era Postgenmica se caracteriza por el desarrollo de varios tipos de genmica. Entre las ms reconocidas, la Genmica Funcional pretende revelar la funcin de grupos de genes que se expresan o reprimen en un tiempo dado y bajo una condicin fisiolgica determinada ya sea normal o patolgica. Su papel es de intenso trabajo en el estudio del cncer. A este respecto, la bioinformtica contribuye a predecir la funcin de los genes a partir de las secuencias de nucletidos. Por otra parte, la Genmica Estructural, busca la resolucin de las estructuras de protenas que conforman un proteoma, mediante mtodos masivos de cristalografa de rayos-X o de Resonancia Nuclear Magntica. La bioinformtica aqu, pretende desarrollar una teora generalizada que prediga la estructura de las protenas a partir de la estructura primaria de las cadenas de polipptidos. Tanto la genmica funcional como la estructural, producen una cantidad masiva de informacin la cual se espera sintetizar a travs del estudio de las interacciones de protenas, tema que revisaremos ms adelante en la biologa de sistemas. Cmo se hace la bioinformtica? Para algunos, las posiciones estn divididas. Unos piensan que esta debe ser hecha por bilogos y otros consideran que por informticos. Posiciones por lo dems que no hacen honor al nombre mismo de la disciplina, ni a la realidad del perfil del profesional que trabaja en bioinformtica. Siendo pragmticos, la bioinformtica puede tener tres tipos de bioinformticos. El primer tipo son los bioinformticos usuarios de programas, este grupo esta constituido por bilogos, qumicos y mdicos, quienes no se siente confortables programando computadoras debido a su poca formacin numrica, abstracta y binaria y su fuerte formacin axiomtica y descriptiva de estructuras y procesos biolgicos. Estos, con una corta introduccin a la Un bioinformtico completo no solo sabe usar programas, bioinformtica y un fuerte sino que sabe tambin disearlos. componente en biologa (molecular y celular), gentica, bioqumica, fisiologa molecular y ecologa es suficiente para discernir resultados satisfactorios. Su deficiencia en el diseo de los programas la compensan mediante colaboracin interdisciplinaria o contratacin directa de ingenieros. El segundo tipo, son los bioinformticos diseadores de programas, grupo compuesto especialmente por fsicos e ingenieros de sistemas y/o electrnica. En su haber tienen una fuerte formacin en matemticas, computacin e informtica, en especial, manejan el clculo infinitesimal, la teora de probabilidades, cadenas escondidas de Markov, programacin de computadores y el procesamiento, visualizacin y anlisis de bases de datos. Con estas herramientas, los

162

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

ingenieros se sienten atrados por la biologa, rea que no es de su resorte, a fin de estudiarla y buscar explicaciones a las regularidades encontradas en los datos biolgicos experimentales. El problema de tales bioinformticos es su limitado poder de inferencias a la hora de evaluar las herramientas creadas por ellos mismos e interpretar los resultados dentro de los marcos conceptuales de la biologa. Al igual que los bioinformticos usuarios, estos compensan sus falencias mediante trabajos colaborativos con bilogos y/o mdicos. Por otra parte, los sistemas biolgicos han inspirado al avance de las ciencias de la computacin con nuevos conceptos que incluyen los algoritmos genticos, redes neurales artificiales, virus de computador, sistemas inmunes sintticos, computacin con ADN, vida artificial, chips hbridos VLSI-DNA, entre otros (Baldi y Brunak, 2001). Alterno a estos avances se encuentran aquellos ingenieros que buscan problemas o modelos biolgicos para ser adaptados y modelados mediante herramientas o enfoques propios de su disciplina, como por ejemplo, la generacin de un tipo de clculo mediante la observacin de los procesos de la biologa celular (ref), o el modelamiento del procesamiento del ARN (alternative splicing) mediante el clculo de restricciones (ref), por mencionar dos ejemplos. El tercer tipo de bioinformtico es el que hemos denonimado el bioinformtico completo, aquel que tiene una formacin mixta de bilogo e informtico a la vez. Aunque un instituto o un laboratorio de investigacin pueden crear un grupo interdisciplinario con bilogos e ingenieros, lo ideal sera que existieran bioinformticos con destrezas en mtodos matemticos y computacionales y con capacidad para evaluar las funciones y definiciones de genes y genomas. De esta manera, un bioinformtico completo debera estar en capacidad de usar y disear programas encaminados a responder muchas de las preguntas que puedan surgir en la intercepcin de las disciplinas que emergen de la Fig. 3. Este tipo de bioinformtica solo es posible si existen programas de pregrado o postgrado diseados para tales propsitos y el cual propondremos hacia la parte final del presente artculo. Pero la bioinformtica no solamente se surte de personas competentes para tales propsitos, otro aspecto que debe tenerse en cuenta es la fuente de los datos biolgicos experimentales a trabajar. Al presente existen dos fuentes principales de datos: 1) las bases de datos pblicas a disposicin de la comunidad acadmica, tipo NCBI (National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov) u otra fuente pblica y 2) las bases de datos privadas producto de la investigacin de un proyecto a pequea o gran escala en genmica o postgenmica encaminados a resolver un problema de inters para la sociedad o el pas. Al respecto, en Colombia nos vemos forzados a trabajar bajo la primera opcin. Por qu? La razn es que en Colombia no existe a la fecha un programa de investigacin masivo que genere datos propios a gran escala y que exija de una creciente demanda de bioinformticos competentes. Pero independiente de la inexistencia de datos propios masivos, nosotros deberamos estar preparados para explotar y evaluar de manera ingeniosa las bases de datos pblicas ya existentes y por venir, ms an cuando estamos ad portas del advenimiento de revolucionarios mtodos baratos de secuenciacin de ADN que van a producir una cantidad astronmica de informacin genmica y molecular no solo fornea sino tambin propia. Otra ventaja de hacer la bioinformtica es su fcil acceso a inversiones relativamente bajos representados en computadores y conexiones de alta velocidad mdicas (David Holmes). Igualmente, el desarrollo de software de bioinformtica facilita la investigacin e impulsan el desarrollo de las empresas de la mano de la ciencia involucrando cada vez ms empresas en el rea. Finalmente, las ofertas de trabajo en bioinformtica en los pases desarrollados son cada vez ms altas, estas se encuentran entre las cinco primeras profesiones mejor remuneradas y las ofertas laborales en revistas como Nature y Science son cada vez ms numerosas. Esta demanda se ha convertido en una preocupacin para la Internacional Society for Computacional

163

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Biology quien recomienda acelerar la formacin de bioinformticos no solo previendo las necesidades futuras, sino para hacer frente a requerimientos actuales, principalmente de la industria farmacutica y biotecnolgica. Bioinformtica en Amrica Latina y en Colombia. La experiencia ms exitosa en Lationoamrica se ha dado en Brasil con la determinacin de la secuencia del genoma de la Xylella fastidiosa, una bacteria que ataca los ctricos y produce grandes prdidas econmicas a los citricultores. All se involucraron cerca de 200 cientficos dirigidos por el Dr. Joao Carlos Setbal. El impacto del proyecto de Xylella Setbal lo evala de la siguiente manera: "en una escala de 0 a 1000, antes del proyecto sabamos 10, despus 100. Pero todava hay 900 por conocer". Ahora en Brasil se han secuenciado cinco genomas bacterianos ms generando toda una gran explosin de nuevas iniciativas. Los beneficios de la aplicacin de este conocimiento esta trayendo grandes dividendos en la biomedicina. Por ejemplo, el diagnstico precoz de enfermedades, el desarrollo de la medicina personalizada o el diseo de frmacos basados en procesos bioqumicos son posibilidades que ya estn tomando los laboratorios farmacuticos, quienes aprovechan las ventajas que les ofrece la bioinformtica para abrir nuevas reas de intercambio. En Chile, recientemente se estn formulando propuestas similares a gran escala, mediante el proyecto Genoma Chile, con una inversin de US$5 millones de dlares, a travs de fondos del Banco Iberoamericano para el Desarrollo (BID). El doctor Holemes y su equipo han proyectado desarrollarlo en tres etapas: 1) el secuenciamiento del Sulfolobus metallicus, una bacteria que podra tener un alto impacto productivo, debido a su importancia para el desarrollo de la minera nacional, 2) el manejo informtico y de genmica funcional y 3) la protemica (ref). En Colombia, desafortunadamente se ha perdido un tiempo valioso cuando cuatro aos atrs el laboratorio de bioinformtica de la Universidad del Cauca y la firma de biotecnologa Corpogen sealaron la importancia de hacer en el pas una inversin como esta (Moreno et al., 2002; Barreto, 2002). Hoy en da, existe una capacidad sobreinstalada de secuenciadores de ADN en el mundo, as que una alternativa intermedia es mandar a secuenciar al extranjero. Brasil, por ejemplo, secuencia a US$50.000 dlares el milln de pares de bases. Podramos comenzar con alguna cianobacteria de pramo, son un modelo excelente para el estudio de la fotosntesis y su contribucin a los procesos de generacin de agua. Nosotros pagamos y ellos a cambio nos dan la secuencia cruda. Posteriormente, un consorcio de laboratorios Colombianos de bioinformtica podra efectuar fcilmente la identificacin, anlisis y anotacin estructural y funcional de los genes del genoma en cuestin. Por otra parte, la bioinformtica en Colombia es casi incipiente. Existen algunas iniciativas en varias universidades. En la Universidad del Valle, por ejemplo, se han graduado con temas en bioinformtica varios estudiantes de pregrado y maestra y otros tantos se encuentran enrolados en programas de doctorado. Recientemente Colciencias, por primera vez abri una convocatoria para la creacin de un Centro de Excelencia en metagenmica y bioinformtica. Este esfuerzo hecho por el gobierno nacional, el SENA y bajo el liderazgo del entonces director de Colciencias, Dr. Felipe Gracia, han hecho posible que la comunidad cientfica experta en estas reas sometan propuestas para tal propsito. Del conocimiento obtenido de estos estudios podramos especular optimizar las capacidades benficas que estos microorganismos nos daran. Adems, de identificar genes con su funcin, comenzaramos a identificar las redes de funcionalidad que caracterizan muchos de los procesos involucrados y a biotecnologizar tales blancos potenciales, ponindonos en lnea directa con la protemica y la biologa de sistemas, fronteras hacia donde se encamina las ciencias de la vida.

164

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

4. Biologa de Sistemas La biologa de sistemas (BS) es la ltima frontera del conocimiento en el estudio de lo viviente y su objetivo principal es predecir y develar las estructuras, interacciones y propiedades que caracterizan lo viviente desde el genoma hasta su uso potencial para el bienestar humano y el entendimiento de la biosfera, integrando todo el conocimiento existente en un cuerpo tericoprctico robusto que explique la complejidad existente, Fig. 2. Esto se alcanzar mediante la integracin de diferentes niveles de informacin para entender cmo los sistemas biolgicos funcionan. Mediante el estudio de las relaciones e interacciones entre varias parte de un sistema biolgico (por ejemplo, redes de genes y protenas implicadas en vas metablicas (metabolmica), de sealizacin celular, organelos, clulas, sistemas fisiolgicos, organismos, etc.) se espera eventualmente generar un modelo entendible de los sistemas biolgicos completos (Burke, 2000; Proudfoot, 2000; Eisengberg et al., 2000). El modelaje, la simulacin, y la prediccin de propiedades emergentes de los sistemas biolgicos complejos se constituyen en el ncleo central de la BS. Se dice que la BS comenz con la publicacin de Ideker et al., 2002, al descubrir redes de interaccin y circuitos de regulacin en el genoma-proteoma de la clula de levadura. Se espera que con el desarrollo de un grupo de nuevos algoritmos se puedan dilucidar e identificar los mecanismos moleculares subyacentes de la mayora de los organismos. Definir nuevos modos de regulacin, vas metablicas conservadas filogenticamente, o interrogar los circuitos reguladores que respondan a un amplio espectro de (perturbaciones) enfermedades y medicamentos. Cmo se hace la BS? La BS conjuga la interdisciplinaridad de tres reas principales: la biologa (animal, vegetal y humana), las ciencias de la computacin y las ingenieras. En una primera aproximacin, las ciencias de la computacin, encabezadas por la bioinformtica buscan integrar las secuencias de genes, con los perfiles de expresin, las redes de regulacin gentica y el interactoma de las actividades normales y patolgicas. Los sistemas estn constituidos por partes que interactan. La interaccin de estas partes produce nuevas propiedades y funciones las cuales son claves para el sistema. Nosotros podremos llamar estas nuevas propiedades y funciones propiedades emergentes. Debido a que las propiedades emergentes son el resultado de las interacciones entre las partes, estas no pueden ser atribuidas a las partes simples del sistema. Esto hace al sistema irreducible. Un sistema no puede ser totalmente entendido tomando a parte cada componente y estudindolo. (Nosotros no podemos entender el mensaje de un autor estudiando las palabras individuales; nosotros no podemos apreciar un bosque mirando los rboles individualmente). Para entender los sistemas, y ser capaces de entender totalmente las propiedades emergentes del sistema, los sistemas deben ser estudiados como un todo. Un sistema se dice complejo si sus propiedades emergentes son impredecibles. La vida misma es un ejemplo de sistema complejo. Consideremos que sucede cuando el nmero de partes de un sistema se incrementa. El caso ms simple, un sistema que tiene solamente dos partes, solamente podr tener una interaccin entre estas dos partes. Sin embargo, dentro de un sistema con cuatro partes, existen 11 posibles modos de interaccin. Entre una clase de 20 estudiantes existen 190 interacciones posibles, contando slo las interacciones por pares. Y entre aproximadamente los 25.000 genes que componen el ser humano, existen ms de 336 millones posibles de interacciones por pares ya que los genes interactan en ms de un par, el nmero total de interacciones posibles es casi imposible de medir! Claramente, necesitamos de alguna simplificacin para enfocar el entendimiento de un sistema de tal complejidad potencial.

165

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Organismo modelo. Nosotros somos la expresin de reglas cifradas por el nmero total de interacciones posibles dadas entre las partes del organismo. Estas pueden ser miles, an decenas de miles de genes y protenas interactuando dentro de un organismo que dispara alguna funcin en el organismo. Los procesos biolgicos operan exactamente igual en otros organismos diferentes. Por ejemplo, el ciclo de Krebs (el proceso que las clulas usan para extraer la energa del azcar) es el mismo a lo largo de muchas especies. La hemoglobina (esencial para que los eritrocitos lleven oxgeno a las clulas) es el mismo para muchas especies diferentes Debido a que los procesos biolgicos operan de la misma manera en varias especies, desde las formas de vida ms simples hasta las ms complejas, los cientficos pueden usar organismos ms simples para los estudios iniciales de los sistemas biolgicos. Por ejemplo, los cientficos pueden estudiar las clulas de levadura para entender como los azcares son metabolizados en muchas especies, incluso la humana, sin tener que tratar con la complejidad adicional de otros sistemas de organismos complejos, tal como los msculos en contraccin. El estudio de un caso ms simple es lo que se conoce como un organismo modelo. La simplicidad de ste permite a un cientfico un acercamiento ms fcil a las propiedades y funciones de inters sin tener que tratar con la complejidad embebida en los organismos ms complejos. Por ejemplo, un cientfico puede estudiar las clulas de levadura para entender como los azucares son metabolizados en muchas especies (incluido en humanos) sin tener que tratar con la complejidad adicional de otros sistemas en los organismos complejos (tales como la contraccin muscular). Adems, los organismos pequeos (tales como las clulas de levadura) se reproducen rpidamente, permitiendo a los bilogos estudiar las diferentes cepas y las generaciones de un organismo en un corto tiempo. Los organismos modelo son seleccionados cuidadosamente como casos simples para los estudios iniciales de los sistemas biolgicos. Estos simplifican nuestra investigacin inicial, proveyendo an de sistemas experimentales flexibles y ricos en datos para su examen, lo cual es vital para los descubrimientos biolgicos iniciales. Los hallazgos hechos a partir de organismos modelo deben ser confirmados mediante estudios hechos en humanos. As, los estudios hechos en organismos modelos son cruciales para responder eventualmente las cuestiones centrales biolgicas respecto a la vida humana. La complejidad de los sistemas biolgicos va ms all del estudio de un organismo modelo. Debido a esta, nosotros dependemos de la experticia de cientficos de mltiples disciplinas para probar y entender completamente las propiedades de los sistemas biolgicos. De hecho, se requiere de esfuerzos colaborativos entre cientficos en un medio ambiente interdisciplinario, lo cual es crtico para los avances de la BS. Adicionalmente, la investigacin colaborativa e interdisciplinaria se podra superar de manera crucial si desarrollamos programas acadmicos con fundamentos hbridos, como el que se propone a continuacin. La enfermedad. Es una condicin propia del organismo vivo producto del malfuncionamiento de las operaciones normales del mismo. En trminos de "sistemas" representa una interrupcin de una o ms partes de un sistema biolgico, el cual a su vez, interrumpe las interacciones entre varias partes del sistema comprometiendo una o ms partes de las funciones del sistema (i.e., una o ms propiedades emergentes del sistema). Uno no podra pensar de la enfermedad de este modo cuando se trata de un dolor de cabeza, pero los cientficos tienen la perspectiva de poder entenderla cuando se estudie la funcin normal de los organismos. Desarrollar un entendimiento de los factores que causan una enfermedad motiva la investigacin biolgica. Histricamente, los organismos son estudiados por los bilogos desde sus cimientos. Debido a que la complejidad de los sistemas biolgicos es abrumadora (an cuando se estudie una simple clula humana), los cientficos han escogido desmantelar el sistema y estudiarlo parte por parte, con la esperanza de que la suma de su conocimiento acerca de las partes ayudara a explicar la operacin del todo. No obstante, rara vez esta estrategia ha tenido xito para entender las causas y posibles curas de las enfermedades complejas, tal como

166

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

el cncer. Todos los organismos biolgicos exhiben propiedades de sistemas, propiedades que son producidas a partir de la interaccin de muchas partes como un todo, y las cuales no son producidas a partir de una simple parte. Debido a la extrema complejidad de un sistema completo para su total entendimiento los organismos deben ser estudiados como sistemas completos. Nosotros debemos ser capaces de ver las partes de un organismo (incluyendo los humanos) como elementos interactuantes de un sistema unificado para entender la totalidad de ese organismo. Esta es parte de la inspiracin y la motivacin para hacer investigacin en bioinformtica y BS y para la creacin de un programa acadmico en estas reas del saber. La BS en los pases desarrollados y Amrica Latina. En los pases desarrollados, la BS y el estudio de los fenmenos y procesos complejos cuenta con presupuestos y grupos de investigacin bien organizados (MIT (http://csbi.mit.edu/), Harvard (http://sysbio.med.harvard.edu/faculty/lander/), Institute for Systems Biology (http://www.systemsbiology.org/), Instituto Santa Fe (http://www.santafe.edu/), entre otros) y sus trabajos hacen parte de los contenidos de revistas especializadas (Nature, Science, PNASUSA, Complexity, Bioinformatics, etc.). A nivel de Amrica Latina, pases como Brasil (http://www.cbi.cnptia.embrapa.br/, http://aeg.lbi.ic.unicamp.br/), Mxico (http://embnet.ccg.unam.mx/) y Chile (http://www.cgb.cl/) han emprendido recientemente algunas iniciativas alrededor de tales temas de punta. Sin embargo, el estado del modelamiento y la simulacin de fenmenos y procesos complejos en Colombia acaba de comenzar con la creacin de un Centro de Excelencia para tal propsito (Colciencias-2006). Igualmente, en el 2007 se abri una convocatoria para crear un Centro de Excelencia en Metagenmica y Bioinformtica. Creemos que estos esfuerzos iniciales daran sus frutos en el mediano plazo. Consecuente con la importancia y perspectivas que se tienen en estas reas en Colombia y en el mundo, el siguiente artculo focaliza sobre una propuesta para incentivar el estudio de estas disciplinas fronteras en las ciencias biolgicas y de la computacin.

Referencias
Baldi, y Brunak, S. (2001). Bioinformatics. The machine learning approach. A Bradford Book, The MIT Press. Cambridge, Mass. Second edition. Gibas, C. Y Jambeck, P. (2001). Developing bioinformatics computers skills. An introduction to software tools for biological applications. OReilly editorial. First edition. Beijing. Moreno, P. A., Vlez, P. E., y Burgos, J. D. (2003 y 2007). Biologa molecular, genmica y post-genmica. Editorial Universidad del Cauca. Popayn. Pgs. 1 274.

www.tigr.org: Contiene informacin valiosa en genmica y programas para el anlisis de genomas. www.genome.ad.jp/kegg/ Encyclo-pedia Kyoto de genes y genomas.

167

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Una Propuesta para la Creacin de un Programa de Pregrado en Bioinformtica A Proposal for Creating an Undergraduate Program in Bioinformatics
Moreno, Pedro A. 1*, Vlez, Patricia E.2, Tischer, Irene1 *pedroam@eisc.univalle.edu.co 1) Escuela de Ingeniera de Sistemas y Computacin. Grupo GEDI, Grupo de Bioinformtica y Grupo BIMAC. Facultad de Ingeniera. Universidad del Valle, Santiago de Cali, COLOMBIA. 2) Departamento de Biologa. Grupo de Biologa Molecular, Ambiental y Cncer (BIMAC)*. Facultad de Ciencias Naturales, Fsicas Exactas y la Educacin. Universidad del Cauca, Popayn, COLOMBIA.

Resumen
La Bioinformtica ha revolucionado el anlisis de la genmica, postgenmica y la biologa de sistemas. En este artculo se propone la creacin de un programa modelo en bioinformtica a nivel de pregrado, como una contribucin para la formacin de profesionales universitarios en reas frontera de las ciencias de la computacin, biologa y matemticas.

Palabras claves: Bioinformtica y pensum acadmico.

Abstract Bioinformatics has dramatically changed the way of analyzing data bases in genomics, post-genomics, computing science, and systems biology. In this article the authors propose to create a model undergraduate program in bioinformatics as a contribution to prepare professionals in computing science, biology and math.
Keywords: bioinformatics and academics pensum.

Moreno T, Pedro A. Colombia. Bilogo (Universidad Nacional de Colombia). Ph.D. en Biologa Celular y Molecular (University of Houston, TX, Estados Unidos). Docente Universidad del Valle. 20 publicaciones (10 internacionales y 10 nacionales) y 3 libros nacionales. Lneas de investigacin: genmica, bioinformtica, estructura molecular de genes y geometra fractal para modelar genomas. E-mail: pedroam@eisc.univalle.edu.co

168

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La propuesta 1. Programas acadmicos en bioinformtica en el mundo. Al presente no existe programa acadmico alguno en bioinformtica a nivel de pregrado en Colombia y son escasos los programas a nivel internacional, dos de los cuales se encuentran enmarcados en los programas de Ciencias de la Computacin. Manteniendo el estndar de la ACM para programas en Ciencias de la computacin, integran una lnea de cursos con orientacin biolgica para dar al estudiante el contexto biologico requerido aplicando los mtodos computacionales a las reas de genmica, bioinformtica y biologa de sistemas. El tercer programa se ofrece dentro de los planes de estudio en biologa. Comprende una serie de cursos que capacitan al estudiante en la aplicacin de herramientas bioinformticas. A nivel de postgrado se encuentran varios programas de maestra o doctorado. Estos programas se ofrecen generalmente a profesionales de biologa o de informtica y son una formacin complementaria en la respectiva rea que concluye con una investigacin en bioinformtica. 1.2. Proyectos de investigacin en bioinformtica en Colombia. En Colombia los grupos en bioinformtica y los proyectos de investigacin aprobados son escasos. Cinco grupos registrados en bioinformtica pueden ser hallados en las bases de datos del GrupLac de Colciencias y solamente dos proyectos aprobados en curso. As que el panorama nacional de esta disciplina de las ciencias es preocupante. Por el lado de sistemas complejos y en el sentido ms amplio, se puede encontrar un nmero similar de grupos de investigacin amn de un posible centro de excelencia en modelamiento y simulacin de fenmenos y proceses complejos a ser aprobado por Colciencias. En nuestra opinin, de existir un centro as, este debera contar con un portafolio de 10 a 20 proyectos a realizar. Desconocemos si tal centro ya ha sido acreditado. Los grupos de bioinformtica de la Universidad del Valle (de la Escuela de Ingeniera de Sistemas y Computacin (EISC)) y de la Universidad del Cauca (BIMAC, Departamento de Biologa) son de los pocos grupos de investigacin en bioinformtica que estn registrados en Colciencias. En particular en estos, se ha observado un fructfero desarrollo en la elaboracin y ejecucin de proyectos de investigacin y de tesis de pregrado y postgrado, Por ejemplo, en el programa de postgrado de Informtica de la Universidad del Valle se han llevado a cabo varias tesis de maestra y algunas de doctorado se encuentran actualmente en progreso. A pesar de este incipiente desarrollo es importante desde ya crear una generacin de bioinformticos competentes para acometer y analizar la informacin disponible a la fecha y a mediano plazo. Si se propicia la creacin de programas encaminados a suplir dicha necesidad el pas no se vera privado de este nuevo desarrollo. 1.3. Pensum. La presente propuesta plantea crear un programa acadmico de pregrado en bioinformtica a fin de formar profesionales con capacidad para investigar y modelar problemas que van desde lo biolgico molecular a los ecosistemas (incluso a lo social). En un extremo del espectro los estudiantes aprendern acerca de la estructura y funcin de los genes, protenas, y omas (genomas, proteomas, interactomas, etc.) y en el otro, estudiaran la estructura y procesos de los ecosistemas y las sociedades propias de algunas de nuestras regiones Colombianas o del mundo. Dicha modelacin solo es posible mediante el aprendizaje de las bases conceptuales y el desarrollo de una gama de enfoques y herramientas computacionales e informticas. 1.3.1. Pilares El programa propuesto se ha construido sobre seis pilares, desarrollados a lo largo de tres periodos acadmicos durante 10 semestres, Fig. 1. Los antecedentes bibliogrficos y experiencias en otras partes del mundo nos han indicado que un bioinformtico completo debera tener una buena formacin en los seis pilares propuestos. Por una parte, los estudiantes adquirirn conocimiento y destrezas en computacin/informtica, matemticas/estadstica y

169

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

bioinformtica, lo cual los har independiente de la asistencia de ingenieros o matemticos y los capacitara con el lenguaje apropiado para interactuar con dichos acadmicos (de las ciencias cuantitativas). Por otra parte, su fundamentacin slida en biologa bsica y aplicada y en ciencias naturales (fsica y qumica) lo capacitar para entender las estructuras y funciones de las diferentes escalas resolutivas de la biologa y las leyes de la naturaleza, as como del lenguaje apropiado para interactuar con cientficos y acadmicos pertinentes. Finalmente, el dominio de un idioma extranjero estar dirigido a leer, escuchar, hablar y escribir conferencias y artculos cientficos.
Fig. 1. A) Diagrama de pilares y periodos acadmicos propuestos para el pregrado en Bioinformtica en la EISC en la Universidad del Valle, Cali. B) Pensum detallado por semestres y materias. Los proyectos integradores y el trabajo de grado II se encuentran indicados.

B 1.3.1.1. Matemtica / Estadstica Clculo 1: sucesiones, series, lmites, continuidad Clculo 2: diferenciacin e integracin

170

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Probabilidad: conceptos bsicos de probabilidad Estadstica: Estadstica descriptiva, muestreo, Inferencia estadstica Ecuaciones diferenciales: Conceptos generales de Ecuaciones diferenciales, solucin analtica de ecuaciones diferenciales ordinarias. Anlisis numrico: Algoritmos numricos para resolver problemas estndares y su anlisis Dinmica molecular: Introduccin a los modelos dinmicos y simulacin continua y especialmente su uso en la descripcin de la dinmica de secuencias biolgicas. Modelacin estocstica biolgica: Introduccin a modelos estocsticos y su descripcin computacional, introduccin a HMM, redes bayesianas, en aplicaciones biolgicas. 1.3.1.2. Computacin / Informtica Introduccin a la tecnologa informtica: conceptos bsicos que sustentan las tecnologas informticas (hardware, el software, sistemas operacionales, Internet, procesadores de palabra, hojas de clculo y manejadores de presentaciones, tica e Informtica Fundamentos de programacin: Programas Simples, Expresiones Condicionales, Datos simples y compuestos. Funciones, Recursin Introduccin a la programacin por objetos: paradigma OO en la solucin de problemas Sintaxis y Semntica de un Lenguaje de alto nivel. Algoritmos, y su implementacin y depuracin. Objetos y sus propiedades, Estructuras de datos Matemticas discretas I: Lgica, Conjuntos y Funciones, Introducci'on a la complejidad computacional, Sistemas, Tcnicas de Demostracin (3 semanas) Matemticas discretas II: Introduccin a la Combinatoria, Ecuaciones de Recurrencia, Grafos, rboles, Introduccin a los Autmatas finitos y Lenguajes Formales. Bases de datos: Arquitectura de una base de datos, Modelado de las base de datos, El modelo de datos relacional, El lenguaje de las bases de datos SQL Minera de datos: Introduccin al Descubrimiento de Conocimiento, Estndar CRISPDM, Bodegas de Datos, Minera a partir de la bodega de datos. Etapas del proceso de descubrimiento de conocimiento, Tareas y tcnicas de Data-Mining (Asociacin, Clasificacin, Clustering) Fundamentos de lenguajes de programacin: Servidores y clientes Web. Protocolos Web, Herramientas de soporte para el diseo, creacin y administracin de aplicaciones Web, Desarrollo de servidores en Internet, Publicacin de informacin y aplicaciones, Protocolos y la capa de aplicaciones, Sitios Web soportados por bases de datos, Arquitectura de integracin (Middleware), Principios de la ingeniera Web, aplicaciones Web distribuidas. Fundamentos de anlisis y diseo de algoritmos: Anlisis de algoritmos de ordenamiento, Anlisis de Algoritmos sobre estructuras de datos, Anlisis de algoritmos sobre grafos, Estrategias algortmicas: tcnicas ingenuas y voraces, dividir y conquistar, programacin dinmica, Algoritmos de Procesamiento de Cadenas. Complejidad: Problemas computacionalmente difciles (problemas tratables e intratables, NP-completitud, Problemas NP-completos, Reduccin: Tcnica para demostrar NP-completitud), Introduccin a la optimizacin (programacin lineal, entera binaria, mixta), Tcnicas basadas en inferencia lgica.

171

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Inteligencia Artificial: Paradigma IA, Sistemas de produccin, Estrategias de bsqueda, Sistemas de resolucin por refutacin, Sistemas basados en reglas, Representacin del conocimiento , Conexionismo, Aplicaciones de IA Computacin distribuida: Arquitectura de redes, Redes y protocolos, Sistemas de redes multimedial, Computacin distribuida, Estndares de redes. Circuitos y paquetes conmutados, Conceptos de capas (fsica, de enlace de datos, de red, de transporte) Seguridad, Calidad de servicio. Electiva I (seleccionar una electiva de inters del campo Informtica/Ciencias de la computacin, que ayuda en el desarrollo bioinformtico de un problema) Electiva II(seleccionar una electiva de inters del campo Informtica/Ciencias de la computacin, que ayuda en el desarrollo bioinformtico de un problema).

1.3.1.3. Bioinformtica. Gentica y Diversidad biolgica (Sem. 1): El estudiante dominar los conceptos bsicos de la gentica Mendeliana y de Poblaciones. Aprender a reconocer la diversidad biolgica de las estructuras y funciones bsicas de los principales modelos de organismos que conforman el rbol de la vida (Eukariota, bacteria y arqueobacteria). Bioinformtica I (Sem. 3) Introduccin a los conceptos bsicos de la bioinformtica: Alineamiento de secuencias, Programacin dinmica, Algoritmos de alineamiento global y local. FASTA, BLAST. Arboles filogenticos. Bioinformtica II (Sem. 4): Bases de datos. Alineamiento de genomas. Herramientas de bioinformtica. Bioinformtica III (Sem. 5): Bioestadstica para bioinformtica. Bioinformtica IV (Sem. 6): Casos de minera de datos en bioinformtica. Genmica, metagenmica y Protemica (Sem. 7): Algoritmos y aplicaciones para el anlisis genmico y protemico. Cluster de genes ortlogos. Nmero de genes esenciales y transferencia horizontal de genes. 1.3.1.4. Biologa. Introduccin a la Biologa y la Qumica (Sem. 1): Niveles de resolucin de la biologa. Energa y termodinmica. Tipos de enlaces y fuerzas. Biologa celular y fisiologa (Sem. 2): Teora celular, estructura y funcin de los componentes intracelulares. Fisiologa molecular. Fundamentos de Biologa molecular I (Sem. 3): Dogma central de la biologa molecular. Replicacin del ADN, estructura de genes, transcripcin, procesamiento del ARNhn, cdigo gentico, sntesis de protenas. Regulacin de la expresin del gen I. Fundamentos de Biologa molecular II (Sem. 4): Regulacin en la expresin del gen II. Fundamentos de Ecologa (Sem. 5): Estructura y funcin de los ecosistemas. Modelamiento de fenmenos y procesos ambientales. Biologa de Sistemas I (Sem. 6): Modelamiento del genoma, transcriptoma, proteoma, interactoma, metaboloma, Biologa de sistemas II y Filogena (Sem 7): Anlisis integral de bases de datos de las especies de organismos secuenciadas a nivel de fisiomas e interaccin con el medio ambiente, etc. 1.3.1.5. Ciencias naturales: Qumica I: Introduccin a la qumica inorgnica y orgnica. (Sem 1) Fundamentos de Bioqumica (Sem. 2): Biomolculas y propiedades. Metabolismo (anabolismo y catabolismo).

172

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Qumica II: Qumica molecular. Fsica I: Elementos de Mecnica, Electricidad, ptica Fisica II: Introduccin a la fsica molecular

1.3.1.6. Idiomas. Ingls u otro idioma equivalente. 1.3.2. Periodos 1.3.2.1. Marcos Conceptuales. Durante los primeros 6 semestres el estudiante se habr formado en las bases conceptuales y aplicadas de los seis pilares mencionados en la Fig 1. 1.3.2.2. Rotaciones y proyectos integradores. Del semestre 6 al 9 el estudiante participar, desarrollar y ejecutar un portafolio de proyectos integradores. Durante esta etapa, los fenmenos y procesos complejos seleccionados como proyectos se modelaran mediante metodologas de mquinas de aprendizaje, de caja negra, estadstica, matemticas, desarrollo de clculos, y fractales (entre otros). Los estudiantes tendrn que llevar a cabo rotaciones en las lneas de investigacin de prediccin de genes, prediccin de estructura secundaria y terciara de las protenas, anlisis de genomas y proteomas, robtica, inteligencia y vida artificial, entre otras. Los estudiantes contarn con un sistema de computacin en grilla con gran capacidad de computo a fin de integrar, asesorar, compartir informacin, analizar y dar soporte a todos los integrantes del programa. Esta infraestructura a su vez fortalecer los programas de maestra y doctorado que actualmente se estn llevando a cabo en informtica en la Universidad del Valle y permitir establecer nexos colaborativos con otros grupos de investigacin y la participacin de jvenes investigadores. Al final del periodo el estudiante habr rotado por al menos tres lneas de investigacin y tendr en su haber tres proyectos integradores terminados y calificados y el proyecto base de su propuesta de grado en particular. 1.3.2.3. Tesis de Grado. En los semestres 9 y 10 el estudiante efectuar el desarrollo final del trabajo de grado, el cual ser publicado y difundido a nivel nacional o internacional. Como parte de los requisitos para optar por un ttulo en bioinformtica el estudiante y su tutor tendrn que haber escrito un artculo y al menos haberlo dejado sometido para publicacin en una revista indexada nacional o internacional. La suma de los proyectos integradores y el trabajo final sustentado, aprobado y sometido para publicacin sern los requisitos parciales para su graduacin como bioinformtico calificado. 1.4. Alcances y Limitaciones. Idealmente un programa de bioinformtica debera estar atado a un programa en genmica, postgenmica y/o BS. Desafortunadamente en Colombia ninguno de estos tres tipos de estudios y tecnologas se ha implementado a la fecha. Solo existen pequeas iniciativas iniciales y parciales. De tal manera que por el momento los alcances del programa se daran a partir de bases de datos tericas propias u obtenidas a partir de bases de datos pblicas. Igualmente, las bases de datos de grupos colaborativos podra enriquecer la informacin disponible de los proyectos del programa y de la oferta laboral para las primeras promociones de bioinformticos. 2. Conclusiones. La propuesta plantea crear un programa acadmico universitario de pregrado en bioinformtica fundamentada en cinco aspectos principales: 1) Generar una carrera profesional en Bioinformtica y Sistemas Complejos que forme individuos con capacidad para modelar y liderar propuestas integrativas en el espectro que va de lo molecular a los ecosistemas (o lo social). 2) Establecer una red computacional para la docencia, la investigacin y la innovacin que soporte todas las propuestas planteadas y forme nuevas generaciones de investigadores.

173

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

3) Consolidar en su produccin los proyectos integradores a lo largo del programa acadmico de bioinformtica, a travs de la formacin de investigadores a nivel de pregrado (bioinformtico) y post-grado (maestra y doctorado, con nfasis en bioinformtica). 4) Financiar y desarrollar un portafolio de proyectos que abarque diferentes reas de la Bioinformtica y la Biologa de Sistemas y los grupos de investigacin del pas. 5) Apoyar el establecimiento de proyectos integrados e interdisciplinarios en colaboracin con nuevos grupos. Referencias Baldi, y Brunak, S. (2001). Bioinformatics. The machine learning approach. A Bradford Book, The MIT Press. Cambridge, Mass. Second edition. Gibas, C. Y Jambeck, P. (2001). Developing bioinformatics computers skills. An introduction to software tools for biological applications. OReilly editorial. First edition. Beijing. Moreno, P. A., Vlez, P. E., y Burgos, J. D. (2003 y 2007). Biologa molecular, genmica y post-genmica. Editorial Universidad del Cauca. Popayn. Pgs. 1 274.

174

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Electronic Cellular Modeling Modelado Electrnico Celular.


Parra Plaza, Jaime Alberto jparra@javeriana.edu.co Pontificia Universidad Javeriana - Cali

Abstract

The Human Genome Project created the necessity for a discipline that allowed researchers to manage the sea of biological information that accumulated in their data bases, giving birth to Bioinformatics. The next stage in the process of discovering the secrets of life is been headed by Systems Biology, an approach that is dealing with a systematic treatment of the biochemical processes that sustain life. As a consequence, it is a fact that biology has established a marriage with computer science, which will last for long. At the same time, there has been a similar fruitful work in the conception of computation models that allows dealing with such complex systems as the biological ones, accompanied by the development of concurrent, constrained-based, and distributed programming languages. However, the standard computation architectures over which such programs are run have not changed in accordance to meet their present requirements, for these architectures are all based on a single, sequential, floating point processor. Nonetheless, the new paradigm of Reconfigurable Computation has all the possibilities to eliminate that imbalance. In this conference it will presented the possibilities that offer Electronic Reconfigurable Devices to be a natural platform to develop both computation models to emulate the activity of metabolic pathways and computation models strongly inspired by this metabolic activity, approaches that together constitute the new field of Biocomputation.
Keywords: electronic celular modeling; concurrent, constrained-based, and distributed programming languages; reconfigurable Computation; Biocomputing. Parra Plaza, Jaime Alberto. Ingeniero Electrnico y Magster en Automtica de la Universidad del Valle, Colombia. Profesor Asistente en la Facultad de Ingeniera en la Pontificia Universidad Javeriana. Coordinador del rea de Sistemas Digitales y Microprocesadores. Sus reas de inters son: Dispositivos Lgicos reprogramables y reconfigurables, Visin Artificial, Inteligencia Computacional Fuerte y Sistemas Bioinspirados. Actualmente es estudiante de doctorado en ingeniera en la Universidad del Valle y ha centrado sus investigaciones en la generacin y validacin de modelos computacionales inspirados en la actividad citoplasmtica y en los hallazgos ms recientes de la biologa molecular comnmente englobados como epigentica jparra@puj.edu.co

175

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Aprendizaje Supervisado para Prediccin de Plegamiento de Protenas Machine Learning for Prediction of Protein Foldings
1

Pea Paz, Lyda 1, Gutierrez Godoy, Jorge Eduardo. Universidad Autnoma de Occidente. Calle 25 No 115-85, Cali Colombia. Fax. (57)(2) 5553911. email: lpena@uao.edu.co

Resumen

El reconocimiento del plegamiento de protenas es un tema de gran importancia, si se considera que la definicin de la estructura de una protena permite mayor conocimiento sobre su funcionamiento. Varios estudios se han realizado proponiendo diversos mtodos estadsticos o algortmicos con el objetivo de lograr modelos que permitan predecir con alto grado de certeza el plegamiento de una protena a partir de su estructura primaria. En el presente trabajo se realiza la comparacin de 12 algoritmos de aprendizaje automtico para la prediccin de plegamiento de protenas a partir de su estructura primaria, se emplearon datos de protenas con estructuras catalogadas mediante SCOP, para establecer la clase de plegamiento (, , /, +) a la cual correspondan. La precisin de los modelos generados se estableci mediante validacin cruzada y conjunto de prueba, alcanzando una precisin promedio de 80% y 76% respectivamente. Se verific el comportamiento de los algoritmos al incluir un mtodo de multiclasificacin uno-contra-uno, lo cual no gener cambio significativo en las tasas de verdaderos positivos logradas anteriormente. Se aplicaron algoritmos para seleccin de atributos, los cuales permitieron confirmar que las caractersticas relacionadas con la composicin de los aminocidos de la protena y la prediccin de estructura secundaria son los aspectos ms determinantes en la definicin de la clase de plegamiento de una protena, aunque los modelos generados con las caractersticas seleccionadas pueden resultar ms complejos.
Abstract

The recognition of proteins folding is an important subject, since definition of proteins structure allows greater knowledge of its functionality. Several studies have been made to propose algorithms or statistical methods to determine models that allow predicting with a high degree of certainty the protein folding from its primary structure. In the present work, 12 algorithms of machine learning have been compared for the construction of models that predicted the protein folding from its primary structure. Proteins data catalogued in SCOP were used in order to determine the folding class (, , /, +) to which they corresponded. The precision of the generated models were established using cross validation and an independent set of data, obtaining values of 80% and 76% respectively. Algorithms for selection of characteristics were applied, which indicated that the composition of protein amino acid and the secondary structure prediction were the determining attributes in the definition of the protein folding class. Palabras Clave: Aprendizaje Automtico, Plegamiento de Protenas, SCOP.

176

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Aprendizaje Supervisado para Prediccin de Plegamiento de Protenas Introduccin

Los algoritmos de Aprendizaje Automtico, son algoritmos que pueden aprender de la experiencia, a partir de la cual generan clasificadores basados en hiptesis, reglas y modelos que explican las relaciones existentes entre los datos. Muchos de los problemas tratados en Bioinformtica se pueden catalogar como problemas de clasificacin, ya que su propsito es establecer la clase apropiada para un caso, cuando se conocen algunas caractersticas, el plegamiento de protenas es un ejemplo. En protemica, la definicin de la estructura y plegamiento de una protena es muy importante, por cuanto ayuda a entender sus funciones. El estudio del plegamiento de protenas tiene repercusiones en muchos campos y ha sido demostrado que existe una conexin especfica entre el plegamiento incorrecto de una protena y disfunciones celulares particulares (1). La estructura de una protena puede ser determinada de forma experimental, pero las tcnicas empleadas resultan costosas, tediosas y limitadas. Por esta razn se han propuesto diversas soluciones computacionales que permitan, a partir de la estructura primaria de la protena, predecir su plegamiento. En el presente documento se examinan varios algoritmos de aprendizaje supervisado para verificar su eficiencia en la prediccin de clases de plegamientos de protenas a partir de la estructura primaria de las mismas, 12 algoritmos previamente seleccionados fueron entrenados empleando validacin cruzada y un conjunto de prueba independiente, se verific la efectividad de los mismos al adicionar mtodos de multiclasificacin y se aplicaron mtodos para seleccin de caractersticas que permitieran establecer aquellos atributos mas determinantes en la definicin del plegamiento.
Materiales y Mtodos Mtodos de Aprendizaje Automtico

En el presente trabajo se emplearon algoritmos supervisados de diferentes clases, en los que se incluyen mtodos estadsticos, mtodos basados en reglas, mtodos basados en rboles, mtodos basados en funciones y Meta Clasificadores. Los algoritmos seleccionados para la comparacin fueron los siguientes: Bayes Net, Nave Bayes MultiLayer Perceptron (3), SMO (4), Simple Logistic (5), Bagging (6), IB1 (7), Decorate (8), Jrip (9), LMT (5), J48 (10) y Random Forest (11). Uno de los propsitos al emplear tcnicas de Aprendizaje automtico es generar modelos que sean comprensibles y fciles de emplear por los expertos, en razn de lo cual es preciso simplificar el modelo generado empleando solamente aquellas caractersticas realmente significativas, lo cual se logra al aplicar tcnicas de seleccin de atributos. Para realizar la seleccin de atributos se emplearon los mtodos de

177

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

evaluacin: CfsSubsetEval: Algoritmo de Seleccin de Caractersticas basado en correlacin (Correlation-based Feature Selection - CFS) (12), ConsistencySubsetEval: Evaluador de Subconjuntos por Consistencia de Atributos (Consistency Attribute subset Evaluator) (13), InfoGain AttributeEval (14), SVMAttributeEval (14) y WrapperSubsetEval (15) en combinacin con los mtodos de bsqueda Ranker, Greedy Stepwise y Best First (14).
Conjunto de Datos

Para el presente trabajo se emplearon los mismos datos utilizados por Ding y Dubchak (16), estos datos se encuentran disponibles en http://www.nersc.gov/~cding/protein/ . Para definir las clases de plegamientos de las protenas se utiliz la clasificacin estructural de protenas SCOP propuesta por A. G. Murzin y colaboradores, la cual organiza las estructuras de las protenas de forma jerrquica considerando sus relaciones evolutivas y funcionales (17). La tabla 1 muestra la distribucin de cada clase para los conjuntos de entrenamiento y prueba.
Tabla 1. Distribucin de dato por clases para Conjuntos de Entrenamiento y Prueba

Clase de Plegamiento + / TOTAL

Datos para Entrenamiento 55 109 115 34 313

Datos para Prueba 61 117 145 62 385

Caractersticas

Las caractersticas de entrada han sido definidas tomando como base las propiedades fsicas y estero qumicas de los amino cidos constituyentes. Este mtodo es explicado en (18) y (19). Cada secuencia de protena es representado por un conjunto de seis vectores de atributos, los cuales incluyen: Caractersticas de Composicin, Prediccin de Estructura Secundaria, Polaridad, Polarizabilidad, Hidrofobicidad y Volumen de Van der Waals Normalizado; estas caractersticas se listan en la Tabla 2.
Tabla 2. Caractersticas definidas para las Protenas

Smbolo C H P S V Z

Propiedad Composicin de Amino cidos Hidrofobicidad Polaridad Prediccin de Estructura Secundaria Volumen de Van der Waals Normalizado Polarizabilidad

Exceptuando el vector de Caractersticas de composicin, que lista la proporcin de cada uno de los 20 aminocidos en la protena, los otros vectores son generados en dos pasos: primero, para cada atributo, los 20 aminocidos son divididos en tres grupos (como se observa en la tabla 3), cada aminocido es reemplazado por un nmero en la

178

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

estructura primaria de la protena, posteriormente, para cada secuencia hallada en el primer paso, se calculan tres descriptores: Composicin, Transicin y Distribucin. Cada vector contiene de esta forma 21 caractersticas: 3 caractersticas de composicin, 3 caractersticas de transicin y 15 caractersticas de distribucin.
Tabla 3. Atributos de los Aminocidos y sus correspondientes grupos

Atributo Estructura Secundaria Hidrofobicidad

Grupo 1 Hlices

Grupo 2 Hebras

Grupo 3 Giros Hidrofbica C, V, L, I, M, F, W (4.43 8-08) M, H, K, F, R, Y, W (10.4 13.0) H, Q, R, K, N, E, D (0.219 0.409) K, M, H, F, R, Y, W

Polar Neutral R, K, E, D, Q, N G, A, S, T, P, H, Y Polarizabilidad (0 2.87) (2.95 4.0) G, A, S, C, T, P, D N, V, E, Q, I, L Polaridad (4.9 6.2) (8.0 9.2) L, I, F, W, C, M, V, P, A, T, G, S Y Volumen de Van (0 0.108) (0.128 0.186) der Waals G, A, S, D, T C, P, N, V, E, Q, I, L

Software Utilizado

Para la implementacin de los diferentes algoritmos se utiliz el software WEKA (Waikato Environment for Knowledge Analisis) desarrollado por la Universidad de Waikato, Nueva Zelanda, el cual se encuentra disponible bajo el esquema de licenciamiento libre en la pgina: http://www.cs.waikato.ac.nz/ml/weka.
RESULTADOS Y DISCUSIN Comparacin de Algoritmos usando Validacin Cruzada

A cada uno de los 12 algoritmos de aprendizaje supervisado seleccionados previamente, se le present el conjunto total de datos (698) para entrenamiento, aplicando validacin cruzada de 10 rodajas. Para cada algoritmo definido, se estableci el porcentaje de casos bien clasificados (Verdaderos Positivos), el ndice kappa y la raz cuadrada del error cuadrtico medio (RMSE), los cuales permitirn realizar la comparacin de los mismos. La tabla 4 muestra los resultados obtenidos. Se puede observar que todos los clasificadores alcanzaron una rata de Verdaderos Positivos de al menos el 75%, siendo el porcentaje mayor, el alcanzado por el Perceptron Multicapa (84.67%). El ndice Kappa, que mide la probabilidad de coincidencias debidas al azar, tiene un rango entre 0.68 0.78 considerndose como un grado de acuerdo sustancial, el RMSE se encuentra en el rango 0.25 0.34 lo que se puede considerar un error relativamente bajo.

179

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 4. Comparacin de Mtodos de Aprendizaje Automtico usando Validacin Cruzada

Mtodo Jrip RandomForest LMT Bagging (con SMO) Decorate (con J48) IB1 MultiLayer Perceptron SMO Simple Logistic Bayes Net Naive Bayes J48

% Bien Clasificados 77.51% 80.66% 83.09% 83.54% 81.95% 76.36% 84.67% 84.25% 83.25% 78.36% 75.93% 77.22%

ndice Kappa 0.68 0.72 0.76 0.77 0.74 0.65 0.78 0.78 0.76 0.69 0.66 0.68

RMSE 0.31 0.27 0.25 0.34 0.26 0.34 0.26 0.34 0.25 0.31 0.34 0.32

Comparacin de Algoritmos usando Conjunto de Prueba Los conjuntos definidos originalmente por Dihn (16) disponan 313 casos para entrenamiento y 385 casos para pruebas, estos dos conjuntos fueron presentados a cada uno de los 12 algoritmos definidos obteniendo los resultados que se presentan en la tabla 5.
Tabla 5. Comparacin de Mtodos de Aprendizaje Automtico usando Datos de Prueba.

Mtodo Bayes Net Naive Bayes MultiLayer Perceptron SMO (con SMO) Simple Logistic IB1 Bagging Decorate (con J48) Jrip LMT RandomForest J48

% Bien Clasificados 77.40% 74.55% 79.22% 79.48% 76.10% 71.43% 79.22% 77.92% 74.55% 76.10% 77.92% 72.21%

Kappa 0.6785 0.64 0.7044 0.7056 0.6551 0.5799 0.7032 0.6836 0.6378 0.6551 0.6821 0.606

RMSE 0.3196 0.3508 0.2923 0.3503 0.2857 0.3780 0.3474 0.2796 0.3366 0.2857 0.2936 0.3600

Se observa una disminucin en los porcentajes alcanzados para casos bien clasificados, respecto a los logrados con validacin cruzada, aunque se conservan dentro de rangos aceptables (72 79%). El ndice Kappa tambin disminuy, alcanzando un rango entre 0.6 0.7. El RMSE aumento ligeramente, situndose entre 0.27 0.37. Aunque los porcentajes logrados en este caso, varan de los alcanzados con la validacin cruzada, pueden presentar una imagen mas certera del comportamiento de los modelos, ya que se presentan para validacin casos completamente nuevos.
Comparacin de Algoritmos usando MultiClasificador

Para realizar los entrenamientos de los diferentes modelos con la opcin de clasificacin multiclase, se emple el clasificador MultiClass Clasifier definido en WEKA con la opcin one-versus-one (uno-contra-uno). La tabla 6 presenta los resultados obtenidos al

180

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

usar el multiclasificador para cada uno de los algoritmos, empleando validacin con conjunto de prueba y validacin cruzada.
Tabla 6. Resultados obtenidos con Multiclasificador al emplear validacin con conjunto de prueba y con validacin cruzada

% Bien Clasificados Mtodo Bayes Net Naive Bayes MultiLayer Perceptron SMO Simple Logistic IB1 Bagging (con SMO) Decorate (con J48) J48 RandomForest LMT Jrip o de Mtodo Bayes Bayes Function Function Function Lazy Meta Meta Tree Tree Tree Rules Conjunto Prueba Validacin Cruzada 76.10% 74.29% 80.00% 80.00% 79.48% 69.61% 79.48% 80.00% 75.32% 80.00% 79.48% 73.25% 77.95% 75.79% 83.39% 83.25% 82.53% 76.50% 83.39% 83.24% 78.79% 82.23% 83.53% 77.64%

Se observa que cuando se valida con el conjunto de prueba, algunos mtodos, especialmente los basados en rboles, en funciones o metaclasificadores, mejoraron su desempeo alcanzando hasta 80% de casos bien clasificados, mientras otros algoritmos, como los Bayesianos, Perezosos o Basados en Reglas disminuyeron su precisin. Para el caso de validacin cruzada, la precisin establecida para la mitad de los algoritmos (especialmente los Bayesianos y los basados en Funciones) disminuye levemente, mientras la precisin de los otros (especialmente los que utilizan rboles, Reglas y Perezosos) aumenta de forma igualmente leve. Como se observa en la tabla anterior, la adicin del esquema de multiclasificador a los algoritmos presentados no ofrece cambios significativos en su desempeo.
Seleccin de Atributos

La tabla 7 resume los evaluadores y mtodos de bsqueda empleados y los atributos seleccionados por cada uno, los atributos se nombran empleando las abreviaturas indicadas en la tabla 2, seguidas por un nmero que indica la posicin del atributo dentro del vector de caractersticas.

181

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Tabla 7 Atributos Seleccionados por cada Evaluador y Mtodo de Bsqueda

Evaluador CfsSubsetEval SVMAttributeEval ConsistencySubsetEval InfoGainAttributeEval WrapperSubsetEval

Mtodo de Bsqueda BestFirst Ranker GreedyStepWise Ranker BestFirst

Atributos C2, S1, S2, S5, S6, S7, S9, S12, S17, V13 C1, C2, C6, C9, C15, C16, C17, C19, S1, S2, S5, S6, S7, S11, S12, S13, S14, S16, P4, P8, P18, V1, V12, V13, Z7, H1. S1, S2, S6, S5, S12, S13, S11, S7, C2, S9, S17, S14, S15, S3, S16, S10, S8. S1, S5, S2, S6, S12, S13, S11, S7, S9, S17, S10, S8, S16, S14, S15, S3, H7, C2 C2, C3, C5, C6, C17, S1, S2, S11, H3, H5, H7, V13.

La tabla 8 presenta una comparacin del nivel de desempeo, medido por porcentaje de casos bien clasificados, obtenidos por cada algoritmo con cada opcin de seleccin de atributos.
Tabla 8. Resultados obtenidos al aplicar a cada mtodo de aprendizaje los conjuntos de atributos seleccionados.

Mtodo Bayes Net Naive Bayes MultiLayer Perceptron SMO Simple Logistic IB1 Bagging Decorate Jrip LMT J48 RandomForest

Seleccin 1 79.51% 78.94% 80.09% 81.38% 81.38% 78.80% 81.23% 81.66% 78.08% 81.38% 79.80% 81.81%

Seleccin 2 81.66% 81.23% 82.09% 83.24% 83.81% 80.52% 83.38% 81.09% 80.09% 83.95% 77.65% 84.53%

Seleccin 3 78.22% 77.08% 79.66% 80.23% 80.37% 77.51% 80.23% 81.66% 79.23% 80.37% 80.09% 81.81%

Seleccin 4 76.65% 71.79% 78.80% 77.22% 76.65% 74.21% 77.51% 79.08% 76.22% 76.65% 75.50% 81.23%

Seleccin 5 81.52% 78.37% 83.09% 82.81% 80.80% 81.66% 82.66% 81.66% 78.08% 81.95% 78.37% 84.81%

En general, la seleccin de atributos permite mejorar los porcentajes de casos bien clasificados, resultando RandomForest como el algoritmo de mejor desempeo en todos los casos.
Comparacin de Conjunto de Caractersticas

Para realizar la comparacin de caractersticas se separaron los casos de entrenamiento y prueba en cada una de las caractersticas presentadas en la tabla 2, y se aplicaron los mtodos MultiLayerPerceptron (MLP) y SMO, por ser los que mejor resultado haban obtenido en pruebas previas. Los resultados mostraron que emplear solamente los datos de una caracterstica disminuye considerablemente el desempeo de los modelos, cayendo por debajo del

182

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

60% de casos bien clasificados, bajando el ndice Kappa a rangos discretos (0.21 0.4) y aumentando el RMSE; lo que implica que no es posible que una sola caracterstica explique el plegamiento de las protenas. Sin embargo, las caractersticas que logran un mayor porcentaje de casos bien clasificados son la composicin de los aminocidos y la prediccin de estructura secundaria, para verificar la efectividad de estas, se entrenaron nuevamente todos los algoritmos empleando estas 41 caractersticas, los resultados se presentan en la tabla 9.
Tabla 9. Comparacin de Resultados para entrenamiento con 41 caractersticas

Mtodo Bayes Net Naive Bayes MultiLayer Perceptron SMO Simple Logistic IB1 Bagging Decorate Jrip LMT J48 RandomForest

Tipo de Mtodo Bayes Bayes Function Function Function Lazy Meta Meta Rules Tree Tree Tree

% Bien Clasificados Validacin Cruzada 80.95% 79.37% 82.38% 82.95% 82.38% 78.08% 82.66% 82.52% 78.22% 82.38% 78.22% 81.95%

Conjunto de Prueba 75.06% 75.84% 77.40% 78.44% 78.70% 74.03% 78.44% 76.62% 74.29% 78.44% 75.58% 77.66%

El desempeo de los algoritmos al ser entrenados nicamente con caractersticas de Composicin de Amino cidos y Prediccin de Estructura Secundaria, se mantiene en niveles altos, llegando en algunos casos a incrementarse respecto a los resultados obtenidos con la totalidad del conjunto de caractersticas. En resumen, una vez realizadas las diferentes pruebas, no se observan diferencias significativas en la tasa de casos bien clasificados alcanzada por cada uno de los algoritmos examinados, aunque los algoritmos basados en rboles, en funciones y los metaclasificadores obtienen, en general, mejores resultados que los bayesianos, los perezosos y los basados en reglas. El empleo de multiclasificadores con el mtodo unocontra-uno no represent una mejora sustancial en el desempeo de los algoritmos e incluso ocasion que algunos lo disminuyeran. Los diversos mtodos empleados para seleccin de atributos incluyen de forma reiterada caractersticas asociadas a la prediccin de estructura secundaria (S) y la composicin de amino cidos de la protena (C), lo cual es consistente con los resultados obtenidos al entrenar los algoritmos con los conjuntos de datos de cada caracterstica de forma independiente. Como reiteracin de los datos anteriormente mencionados, se observ que al entrenar los algoritmos empleando solamente los datos de estas dos caractersticas, los porcentajes de casos bien clasificados fueron similares a los logrados con el conjunto total de datos. Los algoritmos de aprendizaje automtico permiten llegar a soluciones apropiadas a problemas que de otra forma resultaran complejos o costosos de solucionar, para el

183

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

caso de la prediccin de la clase de plegamiento que tiene una protena a partir de su estructura primaria, los resultados obtenidos con estos algoritmos tienen una precisin aceptable y permiten obtener puntos de partida para otras investigaciones.
Bibliografa

1. Dobson C M. Trends Biochem. Sci. 1999, 24, 329-332. En: Olivares-Quiroz L, Garca- Colin L., eds. Plegamiento de protenas: un problema interdisciplinario. Rev. Soc Quimica Mexicana. 2004; vol. 48: 95-105. 2. Attwood T, Parry-Smith DJ. Introduccin a la Bioinformtica. Espaa: Editorial Prentice Hall; 2002. 3. Bishop C. Neural Networks for Pattern Recognition. Estados Unidos: Oxford University Press; 1995. 4. Platt J. Fast training of support vector machines using sequential minimal optimization. En: Scholkopf, B., Burges, C., Smola, A, eds. Advances in Kernel Methods - Support Vector Learning. MIT Press; 1998. 5. Landwehr N, Hall M, Frank E. Logistic Model Trees. ECML 2003. 6. Breiman L. Bagging predictors. Machine Learning, 1996; vol. 24: 123-140. 7. Aha D, Kibler D. Instance-based learning algorithms. Machine Learning 1991; vol.6: 37-66. 8. Melville P, Mooney R. Constructing diverse classifier ensembles using artificial training examples. IJCAI, 2003. 9. Cohen W. Fast effective rule induction. In: Proceedings of the 12th International Conference on Machine Learning. 1995: 115123 10. Quinlan R. C4.5: Programs for Machine Learning. Morgan Kaufman. San Mateo; 1993. 11. Breiman L. Random Forests. Machine Learning. 2001; vol. 45:5-32. 12. Hall M. Correlation-based Feature Selection for Machine Learning. Thesis for the degree of Doctor of Philosophy at University of Waikato. 1999. 13. Liu H., Setiono R. A probabilistic approach to feature selection A filter solution. In 13th International Conference of Machine Learning (ICML 96). 1996: 319-327. 14. University of Waikato. Documentacin de WEKA. New Zeland. Disponible en URL: http://www.cs.waikato.ac.nz/ml/weka/ 15. Kohavi R, John G. Wrappers for Feature Subset Selection. Artificial Intelligence journal, special issue on relevance. 1997: 273-324. 16. Ding C, Dubchak I. Multi-class protein fold recognition using support vector machines and neural networks In Bioinformatics. 2001; vol. 17: 349-358. 17. Lo Conte L, Ailey B, Hubbard TJP, Brenner S E, Murzin A G, Chothia C. SCOP : a Structural Classification of Proteins database. Nucleic Acids Research. Oxford University Press. 2000: vol. 28: 257 259. 18. Chinnasamy A, Sung W, Mittal A. Protein Structure and Fold Prediction Using Tree Argumented Nave Bayesian Classifier. Pacific Symposium on Biocomputing 2004: 387 398 19. Dubchak I, Muchnik I, Holbrook S, Kim S. Prediction of protein folding class using global description of amino acid sequence. Proc. Natl. Acad. Sci. 1995; vol. 92: 8700-8704. 20. Cheng J, Baldi P. A Machine Learning Information Retrieval Approach to Protein Fold Recognition. Bioinformatics. 2006; vol. 22: 1456- 463.

184

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

21. Tan A, Gilbert D, Deville Y. Multi-Class Protein Fold Classification Using a New Ensemble Machine Learning Approach. Genome Informatics. 2003; vol. 14: 206217. 22. Markowetz F, Edler L, Vingron M. Support Vector Machines for Protein Fold Class Prediction. Biometrical Journal. 2003; vol. 45:337 389. 23. Marsolo K, Ding, C. A Multi-Level Approach to SCOP Fold Recognition. Fifth IEEE Symposium on Bioinformatics and Bioingineering (BIBE05). 2005: 57 64.

185

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Complejidad y Caos en la Modelizacin Numrica del Tiempo y el Clima. Chaos and Complexity in Numerical Modeling of weather and Climate.
Pons, Mara Rosa mariona@inm.es Instituto Nacional de Meteorologa (INM), Espaa

Resumen

La prediccin meteorolgica actual se realiza mediante modelos numricos de circulacin general que simulan la dinmica atmosfrica. La dinmica a gran escala se rige por leyes fsicas conocidas (por ejemplo, conservacin de energa y masa), expresadas matemticamente mediante un sistema de ecuaciones diferenciales no lineales que no tiene solucin analtica. Para resolverlas de manera aproximada se utilizan tcnicas numricas (con un enorme coste computacional) que requieren dividir el espacio ocupado por la atmsfera en celdillas tridimensionales cuyo tamao determina la resolucin del modelo. Sin embargo, existen principalmente dos factores que aaden complejidad al sistema atmosfrico y, por tanto, tambin aaden incertidumbre a su simulacin numrica: la primera es la sensibilidad de la atmsfera a pequeas perturbaciones en las condiciones iniciales (caos determinista) por lo que pequeos errores en la asimilacin de observaciones se propagan exponencialmente en el tiempo. La segunda es debida a la limitacin impuesta por el tamao de la rejilla que obliga a parametrizar de forma aproximada los procesos fsicos de escala inferior a dicho tamao, que no pueden resolverse explcitamente. Sin embargo, existen muchos procesos multi-escala en la atmsfera, de estructura aparentemente fractal, que no pueden ser resueltos por mucho que se aumente la resolucin de la rejilla, sino que requieren una nueva formulacin de las parametrizaciones para resolver el problema en toda su complejidad.
Palabras clave: modelizacin meteorolgica, sistema complejo, no-linealidad, caos, condiciones iniciales, procesos multi-escala, estructura fractal. Abstract

Nowadays, weather forecasting is achieved through general circulation models which simulate the atmospheres dynamics. Large scale dynamics is steered by well known physical laws (i.e. energy and mass conservation laws) which are mathematically expressed by a non-linear system of differential equations with no analytic solution. Numerical techniques (requiring an enormous computational cost) are used to resolve the system in an approximate way by dividing the atmosphere in 3-D cells, its size determining the models resolution. However, there are two main sources of uncertainty in numerical simulation: in the first place, the atmosphere is very sensitive to small perturbations in the initial conditions, meaning that small errors when assimilating observations are exponentially propagated in time (deterministic chaos). Secondly, the

186

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

models resolution (that is, the cells size) is a limiting factor since the small scale physical processes cannot be explicitly resolved and have to be parameterised in an approximate way. Nevertheless, there are many multi-scale processes in the atmosphere and some (i.e. clouds and rainfall) even appear to have a fractal structure, meaning that no matter how much the models resolution increases they wont be correctly resolved. This requires new parameterization schemes in order to tackle this problem in all its complexity.
Keywords: weather modelization, complex system, non-linearity, chaos, initial conditions, multi-scale processes, fractal structure

Pons, Mara Rosa. Espaa. Pertenece al Cuerpo Superior de Meteorlogos del Instituto Nacional de Meteorologa en Espaa, donde desempea tareas relacionadas con la investigacin y la prediccin operativa de la Atmsfera. Lneas de investigacin: modelizacin numrica de la evolucin atmosfrica y, en especial, en la adaptacin estadstica de variables multi-escala como la precipitacin que la complejidad del sistema impiden resolver satisfactoriamente empleando los modelos estndar.: mariona@inm.es

187

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Aplicacin de la Bioinformtica para el Desarrollo de Nuevas Terapias Antirretrovirales. Applying Bioinformatics for Developing New Antiretroviral Therapies.
Snchez, Adalberto, Pannay, Joel. Ordez, Paula. Cuesta, Yesid., y Garca, Felipe asanchez6911@yahoo.com Universidad del Valle, Colombia

Resumen

El laboratorio de Biologa Molecular y Patognesis de la Universidad del Valle, ha realizado una primera aproximacin para elucidar la estructura tridimensional de la protena Integrasa del virus linfotrfico humano HTLV-I. Para este propsito se utiliz el recurso de la biblioteca de genes del Genbank, empleando la secuencia de nucletidos del gen Pol para la cepa ATK-1 del mencionado virus. Gracias al uso de los paquetes para ordenador SMART (Simple Molecular Architectrual Research Tool) y Predict Protein. Estos paquetes permiten el reconocimiento de dominios a partir de trabajos con protenas homologas a la del estudio y el modelamiento por homologa gracias a la conservacin de aminocidos entre esas protenas homologas y la de inters. Tambin, se aplicaron algoritmos de hidropaticidad anteriormente desarrollados por Kite y Doolittle. Con estos resultados, se procedi a la identificacin virtual de molculas con capacidad de interaccin molecular con la protena, de tal manera que se alterar su funcin biolgica. Gracias a estos estudios se postulo como candidata de inhibicin proteica a la molcula del cido 3,5 dicafeoilquinico. Ensayos posteriores de inhibicin enzimtica con la protena obtenida por mtodos recombinantes, se logro corroborar dicho efecto. Por ltimo, gracias al paquete de ordenador Docking, se postul un efecto alostrico por unin en sitio diferente al cataltico del mencionado cido a la estructura tridimensional de la protena Integrasa del HTLV-I. Estos resultados, abren el camino para la caracterizacin de agentes con capacidad antirretroviral y la identificacin de sus posibles fuentes.
Palabras clave: HTLV-1, paquete SMART, gen Pol cepa ATK-1. Snchez, Adalberto. Bilogo de la Universidad del Valle. Doctorado en mejoramiento vegetal (Texas A&M University System, TX, USA). Profesor de la Universidad del Valle, Facultad de Ciencias de la Salud. Investigador del Centro de investigaciones de la caa de azcar, CENICAA. Autor de varios artculos nacionales e internacionales. Areas de inters: marcadores moleculares y biotecnologa.

188

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El Papel de la Genmica en la Investigacin en Salud Pblica. The Genomics Role in the Public Health Research.
Sierra-Torres, Carlos Hernn. hsierra@unicauca.edu.co Grupo de Investigacin en Gentica Humana Aplicada (GIGHA). Facultad Ciencias de la Salud, Universidad del Cauca, Colombia.

Resumen

Los descubrimientos hechos por el Proyecto Genoma Humano y los avances en biologa molecular y celular han permitido la formulacin de nuevas iniciativas de investigacin para el mejoramiento de la salud humana. Actualmente, los investigadores estn generando nuevo conocimiento sobre las bases moleculares y los mecanismos de patognesis de varias enfermedades basados en estudios de genmica humana. Con estos estudios, los investigadores esperan identificar nuevos factores de riesgo para susceptibilidad, severidad y transmisin de enfermedad. Este conocimiento brindara un mejor entendimiento de la interaccin entre la exposicin a factores ambientales y la herencia gentica, lo cual a) permitir definir cules son los principales factores de riesgo para una enfermedad, y por lo tanto, permitir formular nuevas estrategias de prevencin, y b) facilitar el desarrollo de nuevos productos y servicios, incluyendo pruebas diagnosticas, tratamientos y medicamentos mas eficaces y eficientes. En la conferencia, se discutir el potencial de la investigacin en genmica para mejorar la salud humana, presentando como ejemplo un estudio en genmica de cncer de cuello uterino. Adems, se discutir acerca del impacto de este nuevo conocimiento sobre la sociedad y los nuevos retos y responsabilidades que implican para los profesionales de la salud pblica en Colombia.
Palabras clave: Genmica, salud pblica, proyecto genoma humano, susceptibilidad, salud humana.

Abstract

The discoveries made by the Human Genome Project and the advances in molecular and cell biology have allowed the formulation of new research initiatives for the improvement of human health. At present, researchers are generating new knowledge about the molecular basis and the mechanisms of pathogenesis of different diseases based on human genomic studies. With these studies, researchers hope to identify new risk factors for susceptibility, severity and transmission of disease. This knowledge will provide a better understanding of the interaction between exposure to environmental factors and genetic inheritance, which a) would allow defining what are the main risk factors for a disease, and therefore, would allow formulating new prevention strategies, and b) would facilitate the development of new products and services, including diagnostics tests, treatments, and medicines more effective and efficient. In the

189

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

conference, the potential of genomic research to improve human health will be discussed, presenting as an example a study in genomics of cervical cancer. In addition, the impact of this new knowledge over the society and the new challenges and responsibilities for public health professionals in Colombia will be addressed.
Keywords: genomics, public health, human genome project, susceptibility, human health. Sierra T, Carlos H. Colombia. Bilogo (Universidad del Cauca). Ph.D. (University of Texas Medical Branch, Galveston, TX). Director de Investigaciones del Laboratorio de Gentica Humana (Universidad del Cauca). Seis (6) premios internacionales y 18 publicaciones internacionales. Lneas de investigacin: Susceptibilidad Gentica epidemiologa molecular. hsierra@unicauca.edu.co

190

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Modelos de Markov en la Prediccin de Genes. Markov Models in Gene Prediction.


Tischer, Irene irene@eisc.univalle.edu.co Universidad del Valle Colombia

Resumen

Los modelos de Markov son ampliamente utilizados para describir problemas complejos como el reconocimiento de voz y lenguaje natural. En el anlisis de secuencias biolgicas se han mostrado muy eficientes, como por ejemplo en la prediccin de estructura y funcin de protenas. En esta conferencia se presenta la aplicacin de estos modelos en la prediccin de genes. Se introducen los conceptos bsicos de cadenas y modelos ocultos markovianos. Luego, se desarrollan modelos estocsticos de este tipo para describir los componentes de un gen y se muestra como se combinan estos modelos, a travs de un modelo generalizado de Markov capaz de identificar en una secuencia ADN, las subsecuencias con alta probabilidad de ser gen. Finalmente, se presenta el proyecto de prediccin de genes del grupo de bioinformtica de la Universidad del Valle.
Palabras claves: Modelos de Markov, anlisis de secuencias biolgicas, prediccin de estructura, prediccin de genes Abstract

Markov models are widely used to describe complex problems as in speech recognition and natural language processing. They also resulted extremely usefully in the analysis of biological sequences, as in the prediction of structure and function of proteins. In this conference we present their applications in gene prediction. We introduce the basic concepts of Markov chains and hidden Markov models. We show how models of this type can be used to describe gene components and how these models can be combined by a Generalized Markov model to identify those subsequences of a DNA sequence which are genes with a high probability. Finally we present the gene prediction project of Universidad del Valle.
Keywords: Markov models, analysis of biological sequences, prediction of structure, gene prediction Tischer Irene. Matemticas (Universitat Erlangen-Nurnberg (Friedrich-Alexander), Alemania). Magster en Ingeniera de Sistemas (Universidad del Valle, UV, Colombia). Doctorado en Gestin Industrial (Universidad Politcnica de Valencia, UPV, Espaa). Profesor Titular Universidad del Valle.: irene@eisc.univalle.edu.co

191

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La prediccin de genes consiste en la deteccin de las regiones codificantes y la inferencia de la estructura del gen, usando herramientas computacionales capaces de modelar y evaluar los diferentes componentes del gen, como son por ejemplo: la bsqueda de secuencias consenso, matrices de marcadores, modelos ocultos de Markov, redes neurales y estrategias integradoras que combinan los modelos para llegar a la prediccin del gen completo usando modelos ocultos de Markov generalizados (GHMM) o redes neuronales. El grupo Bioinformtica de la Universidad del Valle est llevando acabo un proyecto de investigacin, que tiene el objetivo de mejorar la prediccin, permitiendo el uso de diferentes modelos para cada componente de gen y planteando estrategias que los combinan adecuadamente para obtener un predictor de ms alta precisin.
Modelos de Markov en la Prediccin de Genes Marco terico Buscadores de genes

La complejidad del problema de la prediccin bioinformtica del gen se ha venido observando desde el primer reporte del primer genoma secuenciado (Fleischmann1 et al., 1995) hasta la ms reciente publicacin con la correccin del nmero de genes del genoma humano (Venter et al., 2001; International Human Genome sequencing Consortium, 2004 2 3). Cada vez son ms frecuentes el nmero de publicaciones donde se reportan nuevas correcciones (adiciones y/o deleciones de genes) al nmero de genes de los genomas secuenciados a la fecha (http://www.wormbase.org). La razn de estas rectificaciones se puede encontrar a dos niveles: 1) a la propagacin (en las bases de datos) de los errores de anotacin en los genes descubiertos y contra los cuales se efectan los anlisis comparativos por homologas (mtodos extrnsecos) tipo BLAST (Altschul et al, 1990) y FASTA y 2) a que los algoritmos existentes (mtodos intrnsecos), basados en modelos ocultos de Markov (HMM), redes neurales, etc. para la prediccin del gen (como GenScan, Gnomon, GenMark, Twiscan, Grail, Morgan, por mencionar unos pocos) an tienen sus limitaciones, a pesar del hecho que se ha avanzado substancialmente en el entendimiento de la estructura (composicinsealizacin) y funcin del gen. Todas estas aplicaciones tienen sus ventajas y desventajas y sus niveles de prediccin cuando se les compara entre s 4 5. Con el objetivo de elevar el nivel de prediccin del gen, es ms frecuente pensar en un enfoque que utilice el mayor nmero de aplicaciones disponibles a fin de llegar a un consenso optimizado a la hora de asignar y anotar la existencia de un gen. Esta estrategia integradora ha permitido la aparicin y utilizacin de programas de ltima generacin que cuentan con algunas aplicaciones (o algoritmos) ms exitosos tales como, GenomeScan, FGENESH+ y Procrustes que combinan mtodos intrnsecos y extrnsecos. Otra alternativa empleada es combinando GenScan y HMMGene, entre otras posibles combinaciones.

192

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Modelos de Harkov

Los modelos ocultos de Markov (HMM - Hidden Markov Models) se han mostrado muy apropiados en el reconocimiento de secuencias en Bioinformtica. Los modelos ocultos de Markov son de naturaleza probabilstica y permiten modelar secuencias de smbolos, como por ejemplo los smbolos del alfabeto de nucletidos, con los que se describe el genoma de todos los organismos vivos. Son una generalizacin de las cadenas de Markov, que describen de manera probabilstica los cambios de los estados de un sistema a lo largo del tiempo, suponiendo que un cambio ocurre slo en dependencia del estado actual y de las probabilidades de transicin, los cuales se suponen independientes del tiempo. Los modelos ocultos proveen la posibilidad de modelar el sistema si los estados del sistema no son observables directamente (quedan ocultos), y se debe concluir a los estados a partir de una secuencia de observaciones. Las cadenas de Markov, modelos visibles (MC) estn en uso desde mucho tiempo en la solucin de problemas de decisin. Los modelos ocultos de Markov (HMM) fueron desarrollados de Baum et al. (1970). Rabiner et al. (1980) usaron con mucho xito los HMM en el problema de reconocimiento de voz). Recientemente se estn aplicando los HMM en la bsqueda de patrones de usuarios de la web y su clasificacin. En Bioinformtica fueron Hassler et al. (1992) los primeros en aplicar HMM, los emplearon en el alineamiento de secuencias de familias de protenas. Hoy, los modelos de Markov forman parte esencial en el anlisis de secuencias biolgicas (ADN, ARN y protenas).
Cadenas de Markov en la prediccin de genes

Una cadena de Markov est definido como la tupla (S, A,), donde S es el conjunto de n estados S = {s1,,sn}, A=(aij) es la matriz de transicin, una matriz estocstica de (n n) que escribe la probabilidad de pasar de un estado a otro, y es el vector estocstico de longitud n: A = (aij) = p (i,j); = (i) (probabilidad de pasar de estado i a estado j) (probabilidad de iniciar en estado i)

Al aplicar un modelo de Markov, se usa implcitamente un supuesto, la propiedad de Markov: la transicin de estado i a estado j no depende de cmo se lleg a estado i; el proceso no tiene memoria. De esta manera se simplifica el clculo de la probabilidad de para una secuencia de estados x1,, xL, se tiene que: p(xL ,, x1) = p(xL | xL-1,, x1) p(xL-1 | xL-2,, x1) p(x2 | x1) p( x1) = p(xL | xL-1) p(xL-1 | xL-2) p(x2 | x1) p( x1) ; lo que se puede expresa en trminos de la matriz de transicin y del vector inicial como p(xL ,, x1) = a(xL | xL-1) p(xL-1 | xL-2) p(x2 | x1) ( x1).

En la prediccin de genes se usan con frecuencia cadenas de Markov para modelar los intrones, exones y la zona intergnica:

193

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Si consideramos como estados los nucletidos: S ={A, T, C, G}, podemos interpretar una secuencia x1,, xL de ADN como secuencias de estados del modelo Markov correspondiente y evaluar su probabilidad. Si es suficientemente alta, se acepta la interpretacin como componente del gen. Las figuras muestran un modelo para intrones y otro para exones:

Hasta el momento asumimos que los parmetros del modelo (matriz de transicin, vector inicial) son conocidos. Para que el modelo aprenda los parmetros, se lo entrena con una base de datos con secuencias conocidas del tipo que se requiere modelar. En el caso de cadenas de Markov, el entrenamiento es sencillo. Para la matriz de transicin se cuenta en la base de datos todas las transiciones que ocurren de un estado i a un estado j, y se divide por las transiciones de i a cualquier estado. El vector inicial se estima contando los nucletidos iniciales de las secuencias y dividiendo por el nmero total de secuencias.
Modelos ocultos de Markov en prediccin de genes

Los modelos ocultos de Markov se aplican, cuando la secuencia de estados no es observable. En su vez se observan variables aleatorias con valores en un conjunto conocido, que dependen del estado. Esto implica que se debe conocer la probabilidad de observacin en cada estado i. Por eso se introduce la matriz de emisin B = (bij), que describe la probabilidad de observar un smbolo vk a partir del estado i: bij=p(o = vj| x =i) donde o es una observacin, tomado del alfabeto de observaciones { v1 , v2 , , vK }, y x es un estado.

194

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Con la aplicacin del modelo oculto de Markov se busca decodificar una secuencia dada de observaciones, es decir, encontrar los estados que con ms alta probabilidad corresponden a las observaciones. Gracias a la propiedad de Markov, no se tiene que calcular la probabilidad de cada secuencia de estados sera un trabajo imposible, ya que existen nL secuencias que es una cantidad inmensa, ya con valores modestos del nmero de estados n y la longitud de la secuencia L. Esta propiedad que significa que el modelo no tiene memoria para estados pasados, se puede usar para disear un algoritmo (Viterbi 7) de programacin dinmica, que con una complejidad proporcional a nL es muy eficiente. El entrenamiento de modelos ocultos de Markov es sencillo, si se tiene a su disposicin una base de datos con observaciones junto con los estados correspondientes. La estimacin en este caso simplemente consiste de un conteo, anlogo al entrenamiento de una cadena de Markov. Si slo las observaciones estn disponibles, se debe aplicar un algoritmo, que se encarga de la estimacin simultnea de todos los parmetros (matriz de transicin de emisin y vector inicial). El algoritmo debe maximizar la probabilidad de obtener las Figura. 2. Un modelo oculto de observaciones a partir del modelo. Generalmente se Markov para describir una isla CpG. usa el algoritmo de Baum-Welch7, un algoritmo iterativo de programacin dinmica. Para las aplicaciones bioinformticos se han desarrollado una serie de HMM especficas que permiten el alineamiento de dos o varias secuencias de nucletidos o protenas, de describir las caractersticas de familias de secuencias y buscar miembros de esta familia en una base de datos (Profile HMM). Son muy utilizados tambin en la bsqueda de genes, donde se usan para definir la composicin de gen en componentes caractersticas o para describir algunos de los componentes 8 9. Aqu describimos de modo de ejemplo un modelo para reconocer las islas CpG en una secuencia de observaciones (tomado de 9). Las islas CpG juegan un papel importante en la bsqueda de genes, ya que las islas proporcionan la informacin de donde encontrar un promotor de un gen. En una secuencia de ADN, se busca identificar entonces las zonas que son islas. El modelo oculto de Markov est descrito por la figura 2. Los estados utilizados son 1: no-isla, 2: isla. Se tiene una alta probabilidad de quedarse en un estado, la transicin a otro estado es baja. Las observaciones son la secuencia de ADN. Se observan entonces los nucletidos, obviamente la probabilidad de C y G es baja para no-islas y alta para islas. Por eso, la secuencia ms probable de estados correspondiente a las observaciones favorece el estado 1, si hay poca C y G en una zona de la secuencia, y selecciona el estado 2 en el caso contrario.

195

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Modelos ocultos generalizados de Markov en la prediccin de genes

La estructura de un gen se puede describir como un diagrama de flujo, que muestra los componentes del gen y su orden (Figura 3). Es obvio que el diagrama se puede leer como un modelo oculto de Markov: los estados corresponden a los componentes del gen, las transiciones indican el orden en qu posiblemente se organiza el gen. Las observaciones corresponden a la secuencia de ADN, en la cual se realiza la bsqueda. Para cada componente se tiene un modelo (como Figura. 3. Un modelo generalizado de Markov para por ejemplo los modelos para exones y describir un gen completo. intrones descritas anteriormente), que, al aplicarlo a una subsecuencia, devuelve la probabilidad de interpretarla como este componente. Pero hay una dificultad: En los modelos descritos hasta el momento corresponde una sola observacin a cada estado. Sin embargo, este no es el caso en el modelo para el gen. Cada seal o componente emite toda una secuencia de observaciones, corta en el caso de seales, pero largo en el caso de los componentes. Los modelos generalizados de Markov tienen precisamente este hecho en cuenta. Para poder aplicar un modelo generalizado de Markov se debe por ende modelar las longitudes de un estado. Esto se logra usando una funcin de probabilidad de las longitudes de cada estado. La probabilidad de un gen potencial se compone por eso de diferentes probabilidades

la probabilidad de la longitud de cada componente la probabilidad del componente la probabilidad de transicin entre componentes.

Un buscador de genes entonces escanea la secuencia de ADN secuencialmente, acumulando las probabilidades obtenidos. Busca primero las seales, ya que ellas delimitan los componentes. Luego determina el componente anterior de acuerdo con el modelo estructural general (en caso de varias alternativas de interpretacin se queda con la versin ms probable). Acumula la probabilidad de longitud, de componente y de transicin. Cuando llega al final de la secuencia selecciona la interpretacin con ms alta probabilidad. Varios predictores de genes usan este modelo oculto generalizado de Markov, como por ejemplo el GenScan y el Genezilla. Obtienen muy buenos resultados en la prediccin (medidos en trminos de sensibilidad y especificidad), sobre todo, si se dispone de una base de datos para el entrenamiento, que contiene secuencias especficas del organismo en consideracin.

196

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El Proyecto de prediccin de genes del grupo Bioinformtica, Universidad del Valle

La prediccin de genes no es una tarea trivial y requiere un largo camino para resolverlo de manera no ambigua. Generalmente, el investigador bioinformtico aplica varias herramientas, para evaluar su secuencia y compara los resultados para poder tomar mejores decisiones a cerca de la validez de los resultados. Actualmente, la comparacin de estos resultados se hace manualmente. Por ello, se est desarrollando un producto de software que es ms flexible que los predictores actuales. El proyecto titulado Desarrollo de un predictor grfico, altamente configurable para genes de organismos eucariotas y procariotas, permite considerar en paralelo varios modelos diferentes para cada componente del gen, y determina, basado en redes bayesianas, cuales de ellos es el mejor en el contexto determinado por la secuencia de consulta (por rboles de decisin) y como combinar en forma ms adecuada la informacin obtenido por la evaluacin de los posibles modelos (a travs de redes bayesianas). De esta manera rene en forma sistemtica los elementos de juicio necesarios en la mejor toma de decisiones en un ambiente especfico y pone en manos del investigador bioinformtico una herramienta, que es la ms precisa que se puede obtener a partir de las bases de datos, que el usa para el entrenamiento. Cabe de anotar, que la herramienta propuesta, por incluir las tcnicas de combinacin de modelos resultar por lo menos tan buena como el Genezilla entrenado con las mismas bases de datos, ya que el uso de varios modelos para una componente del gen generaliza el uso de un solo modelo. El punto de partida para el proyecto es el Genezilla, un predictor de genes de cdigo abierto (open source) que ya que permite configurar las bases de datos de entrenamiento y los modelos de los componentes. En esta aplicacin se integran modificaciones, diseadas para aumentar la funcionalidad y amigabilidad de la herramienta. Funcionalidad:

Integrar nuevos modelos (redes neuronales multiespaciales de Markov para promotores) Integrar una bsqueda por las islas CpG

para

exones,

modelos

Crear la posibilidad de entrenar y comparar diferentes configuraciones La posibilidad de optimizar la configuracin para su problema especfico, combinando diferentes alternativas a travs de modelos bayesianos y rboles de decisin

Amigabilidad:

Facilitar el proceso de entrenamiento (wizard con ayudas grficas para la seleccin de los parmetros necesarios para el entrenamiento y la opcin de validar un entrenamiento a nivel global y componente) Agregar elementos visuales para representar el resultado de la prediccin en forma ms comprensiva y completa, entre ello estn disponibles para el usuario: una visualizacin global de los resultados de bsqueda junto con la posibilidad de hacer un zoom para ver detalles de los genes y sus componentes, una representacin que considera los genes en ambas hebras, estadsticas como

197

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

contenido G+C, codn de preferencia en la secuencia, ubicacin de islas CpG, cadena predicha de aminocidos que expresa cada gen) Como ventaja adicional de la herramienta se tiene su potencial para adaptarse a futuros desarrollos. Si aparecen nuevos modelos prometedores para alguna componente del gen, pueden ser incorporados sin problema a travs de las tcnicas de combinacin aumentando los niveles de prediccin. Estamos trabajando actualmente en la prediccin con modelos estocsticos ms generales, que pueden tener memoria (gramticas independientes y dependientes del contexto). Para mantener la eficiencia de la herramienta, aun con el esfuerzo computacional ms elevado, estamos intentando de desarrollar una versin de la herramienta que usa con clculo distribuido. Con el desarrollo de esta herramienta, de distribucin libre para la comunidad bioinformtica, se espera contribuir al anlisis de la estructura y funcin del gen a fin de ganar un mejor entendimiento en el estudio de la organizacin de de genes y genomas, asignar nuevos genes potencialmente tiles y, fortalecer la investigacin en bioinformtica en el pas, donde la bioinformtica y la genmica a nivel de la prediccin del gen es poca.
Conclusiones

Se introdujo a diferentes tipos de modelo de Markov, usados en la prediccin de genes. Las cadenas de Markov son aplicables en situaciones donde se puede observar directamente la secuencia de estados. Si los estados no son observables directamente, pero se tiene observaciones relacionados con los estados, se puede aplicar un modelo oculto de Markov. Ambos tipos de modelo son utilizados en los Modelos generalizados de Markov, que permiten considerar estados que corresponden a observaciones de longitudes variables. Estos modelos son la base de muchos predictores de genes exitosos. Sin embargo son mejorables. Por un lado no son muy amigables para el usuario, ya que requieren generalmente un proceso complicado y poco transparente de instalacin y entrenamiento. Tambin en la visualizacin de los resultados de bsqueda pueden ser mejorados. Otra dificultad del investigador bioinformtico es el problema de seleccin de la herramienta ms adecuada y los modelos individuales para sus fines, donde tiene una gran variedad de opciones. Por esta razn se esta llevando a cabo el proyecto aqu presentado, que intenta a desarrollar a partir del Genezilla un software fcil de usar en todos sus procesos y rico en informacin til adicional para el usuario. Se proponen modelos adicionales para aumentar los niveles de prediccin. Con la combinacin de modelos a travs de redes bayesianas y rboles de decisin se libera al bioinformtico de la seleccin de la herramienta ms ajustada a sus objetivos, ya que el usuario la puede integrar todos los modelos prometedores en su configuracin del buscador, la herramienta se encarga en usar el aporte posible de cada uno en la prediccin. En el momento estamos terminando la primera versin del proyecto. El trabajo ha sido un gran estimulo para el aprendizaje, no solo como grupo de investigacin, si no tambin en la formacin de estudiantes de pregrado y maestra quienes aportaron valiosas avances a la investigacin.

198

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Referencias

1 Fleischmann,R.D., Adams,M.D., White,O., Clayton,R.A., Kirkness,E.F., Kerlavage,A.R., Bult,C.J., Tomb,J.-F., Dougherty,B.A., Merrick,J.M., McKenney,K., Sutton,G.G., FitzHugh,W., Fields,C.A., Gocayne,J.D., Scott,J.D., Shirley,R., Liu,L.I., Glodek,A., Kelley,J.M., Weidman,J.F., Phillips,C.A., Spriggs,T., Hedblom,E., Cotton,M.D., Utterback,T., Hanna,M.C., Nguyen,D.T., Saudek,D.M., Brandon,R.C., Fine,L.D., Fritchman,J.L.Fuhrmann, J. L., Geoghagen, N. S. M., Gnehm, C. L., McDonald, L. A., Small, K. V., Fraser, C. M., Smith, H. O. and Venter, J. C. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269:496-512. 2 Venter et al., 2001. The sequence of the human genome. Science. 291: 1304-1351. 3 Venter et al., International Human genome Sequencing Consortium. 2004. Nature. 431:931-945 4 Altschul, S. F. et al., "Basic local alignment search tool," J. Molec. Biol., 215(3):40310, 1990. 5 Cynthia Gibas & Per Jambeck. 2001. Developing Bioinformatics Computer Skills. O'Relley. Beijin 6 GRATE, H.; KARPLUS, K.; SJLANDER, K; Understanding and using hidden Markov models. 7 DURBIN, R.; EDDY,S.R.; KROGH,A.; MICHISON, G.; Biological sequence anaysis. Cambridge University Press, 1998. 8 GRATE, H.; KARPLUS, K.; SJLANDER, K; Understanding and using hidden Markov models,http://citeseer.ist.psu.edu/cache/papers/cs/174/http:zSzzSzwww.cse.ucsc.eduzS zresearchzSzcompbiozSzpaperszSzismb96_tutorial.pdf/stochastic-modeling-tutorialstochastic.pdf 9 DURBIN, R.; EDDY,S.R.; KROGH,A.; MICHISON, G.; Biological sequence anaysis. Cambridge University Press, 1998.

Bibliografa

ALTSCHUL, S. F. et al., "Basic local alignment search tool," J. Molec. Biol., 215(3):403-10, 1990. BOCKHORST, J.; CRAVEN, M.; PAGE, D.; SKALIK, J.; GLASNER, J.; A bayesians network approach to operon prediction. Bioinformtics vol. 19 no 10, 2003. BOOCH, Grady; RUMBAUGH, James; JACOBSON, Ivar. UML,1999. BREIMAN L, FRIEDMAN J, OLSHEN R."Classification and Regression Trees". Wadsworth International Group. 1984. CHARNIAK, E. (1991). Bayesian networks without tears. AI Magazine 12:50-63. CLAVERIE J.M. ; Computational methods for the identification of genes in vertebrate genomic sequences: . Hum. Mol. Genet., 6, 17351744, 1997. DOPAZO, Joaqun; VALENCIA, Alfonso. Bioinformtica y genmica. 2001 DOPAZO, Joaqun; VALENCIA, Alfonso. Estructura y complejidad del genoma humano. Ciencias 68. 2002.

199

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

DURBIN, R.; EDDY,S.R.; KROGH,A.; MICHISON, G.; Biological sequence anaysis. Cambridge University Press, 1998. FLEISCHMANN,R.D., ADAMS, M.D., WHITE,O., CLAYTON,R.A., KIRKNESS,E.F., Kerlavage, A.R., Bult,C.J., Tomb,J.-F., Dougherty,B.A., Merrick,J.M., McKenney,K., Sutton,G.G., FitzHugh,W., Fields,C.A., Gocayne,J.D., Scott,J.D., Shirley,R., Liu,L.I., Glodek,A., Kelley,J.M., Weidman,J.F., Phillips,C.A., Spriggs,T., Hedblom,E., Cotton,M.D., Utterback,T., Hanna,M.C., Nguyen,D.T., Saudek,D.M., Brandon,R.C., Fine,L.D., Fritchman,J.L.Fuhrmann, J. L., Geoghagen, N. S. M., Gnehm, C. L., McDonald, L. A., Small, K. V., Fraser, C. M., Smith, H. O. and Venter, J. C. (1995) Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science 269:496-512. FRIEDMAN, N.; GOLDSMIZDT, M.; Learning Bayesian Networks from Data'. Stanford University, 1998. GIBAS, Cynthia; JAMBECK, Per. Developping bioinformatics computer skills. OReilly. 2001. GOMEZ, J. Redes Neuronales. http://wwwdi.ujaen.es/~nacho/tema5talf.pdf GRATE, H.; KARPLUS, K.; SJLANDER, K; Understanding and using hidden Markov models, http://citeseer.ist.psu.edu/cache/papers/cs/174/http:zSzzSzwww.cse.ucsc.eduzSzresearc hzSzcompbiozSzpaperszSzismb96_tutorial.pdf/stochastic-modeling-tutorialstochastic.pdf HAN, J.& KAMBER, M. (2001). Data mining: concepts and techniques. Academic Press. HAUPT, Randy L. / HAUPT, Sue Ellen. Practical Genetic Algorithms. 2a Edicin. Junio 2004. KARGUPTA, H. and P. HAN. Advances in distributed and parallel knowlegde discovery. Mit Press. 2.000 KRANE, D.E.; RAYMER, M.L.;Fundamental concepts of bioinformtics. Ed. Bejamin Cunnings, 2003. LEVITSKY, V.; KATOKHIN, A.; "Recognition of eukaryotic promoters using a genetic algorithm based on iterative discriminant analysis". In Silico Biology. 2003, Vol. 3. MAJOROS, B.; PERTEA, M. and KORF, I. Genefinding. http://www.genefinding.org QUINLAN J.R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publisher, San Mateo. CA.1993. MITCHELL, T. (1997). Machine Learning. New York, McGraw Hill, New York. PEARL, J. Probabilistic reasoning in intelligent systems. Ed. Morgan Kauffmann. 1988. RABINER, L.; JUANG, B.;Fundamentals of speech recognition. Prentice Hall, 1993. SALZDERG, S.; DELCHER, A.; FASMAN, K. and HENDERSON, J. A decision tree system for finding genes in DNA. http://www.cs.jhu.edu/~salzberg/appendixa.html. 1998

200

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

SREERAMA K. MURTHY, SIMON KASIF, STEVEN SALZBERG. A System for Induction of Oblique Decision Trees. Journal of Artificial. Intelligence Research. 1994. STAVROVSKAYA, E.; MIRONOV, A. Two genetic algorithms for identification of regulatory signals. En: Silico Biology. 2003, Vol. 3 TISCHER, I.; MORENO, P.; CUARN, M.; BEDOYA, O; GARRETA, L.; GOMZ, L.; HOYOS, P., CABEZAS,I.M.; PEA, L. Desarrollo de un predictor grfico, altamente configurable, de genes de diversos organismos, Proyecto en investigacin en proceso, Grupo Bioinformtica, Universidad del Valle, 2005. TABOADA, Fernando; GMEZ Germn. Prediccin de genes. 2003. TROYANSKAYA, O.; A Bayesian framework for combining heterogenous data sources for gene function prediction in Saccharomyces cerevisiae. PNAS, Vol 100 (2003): 8348-8353. VENTER et al., International Human genome Sequencing Consortium. 2004. Nature. 431:931-945. VENTER et al., 2001. The sequence of the human genome. Science. 291: 1304-1351. ZOMAYA, Albert Y. Parallel Computing for Bioinformatics and Computational Biology: Models, Enabling Technologies, and Case Studies. Willey Publisher. 2006.*

201

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La Familia de Genes del Receptor Olfativo Humano The Human Olfatory Receptor Family
Tobar, Fabin , Vlez, Patricia E.
1
1

y Moreno Pedro A. 2

htovar@unicauca.edu.co 1) Departamento de Biologa. Universidad del Cauca, Popayn, Colombia. 2) Escuela de Ingeniera de Sistemas y Computacin. Universidad del Valle, Santiago de Cali, Colombia.

Resumen

La Familia de Genes del Olfato Humano, hace parte de un gran grupo de genes encargados de transmitir a la clula, las seales que vienen del exterior como la luz o los olores. Estos genes expresan un receptor de siete dominios extramenbranales, el cual es acoplado a una protena G, siendo la molcula ms importante en la percepcin de seales externas. Actualmente, la familia de genes del olfato humano, es una de las mas estudiadas, debido a las caractersticas moleculares y fisiolgicas que gobiernan su funcin; caractersticas que pretenden ser ilustradas en el presente trabajo por ser el fundamento de las investigaciones que actualmente estamos realizando, en la comprensin de los mecanismos por los cuales se rige y regula la expresin de los genes en la funcin olfativa.
Palabras Claves: Familias de Genes, Receptores del Olfato Humano.

Los resultados de la secuenciacin del genoma, han puesto de manifiesto que aproximadamente la mitad de las 25 principales familias de protenas que codifica el genoma humano estn relacionadas con el procesamiento de informacin que realizan las clulas (Stryer et al, 2002), es decir con los procesos de recepcin, procesamiento y respuesta que ellas cumplen frente a diferentes seales qumicas o fsicas de su entorno como la luz, los olores y los sonidos. Este conjunto de procesos forman las vas de transduccin de seales, en donde cada uno de estos procesos es desarrollado por diferentes molculas o por la interaccin de estas en grandes complejos celulares. Los receptores de siete hlices transmenbranales o 7TM son unas de las molculas mas importantes en estos procesos, debido principalmente a que la mayor parte de las seales que vienen del exterior son demasiado grandes o polares para atravesar la membrana celular y por tanto estos son necesarios para trasmitir informacin iniciada por seales tan diversas como fotones, olores, sabores, hormonas y neurotransmisores. Es decir, son necesarios en importantes sistemas sensoriales y de comunicacin celular. Dentro de estos sistemas sensoriales, uno de los ms importantes para la supervivencia de los seres vivos es el olfato. Este sistema permite percibir pequeas y voltiles molculas (olores), que forman el ambiente natural en el que nos desarrollamos, ya sea medios acuticos o terrestres. Este sistema cumple su funcin gracias a los receptores 7TM acoplados a protenas G, denominados RO (Receptores Olfativos), los cuales permiten detectar a los seres humanos y a otros seres vivos miles de compuestos distintos con considerable sensibilidad y especificidad.

202

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La maquinaria Olfativa esta compuesta por un receptor 7TM, una protenas G en forma inactiva y un GDP. La protena G se presenta como un heterotrmero formado por las subunidades , y ; siendo la subunidad la que esta unida al nucletido GDP; Los Receptores del Olfato son de tamao pequeo 310 aminocidos de longitud y emplean un cdigo combinatorial que les permite percibir miles de compuestos olorosos con considerable sensibilidad y especificidad (Malnic et al, 1999). Estos receptores poseen una alta similaridad de dominios dentro de los CDS (Zozulga et al, 2001), y se destaca que cada neurona olfativa expresa un nico receptor de entre los cientos existentes dentro de las neuronas del epitelio olfativo, lo cual obedece a un mecanismo de regulacin an desconocido! Ahora bien, los genes RO son en su gran mayora de exn simple (Todd D. et al, 2006) y se encuentran distribuidos en casi todos los cromosomas, exceptuando los cromosomas 20 y Y de acuerdo a Niimura y Nei, (2003). Estos genes forman una gran familia dentro de los mamferos (OR family) la cual esta compuesta en humanos por alrededor de 800 genes de los cuales el 55% son pseudogenes (Todd D. et al, 2006), porcentaje que vara enormemente con otras especies, lo cual a llevado a proponer que la prdida de agudeza en el sentido del olfato de los mamferos superiores va ligada, probablemente, al hecho de que son menos dependientes de este sentido para su supervivencia (Zozulga et al, 2001). La Familia RO, esta compuesta igualmente por un gran numero de subfamilias asociadas a la funcin y filogenia establecida de sus genes (Zozulga et al, 2001; Niimura y Nei 2003), la cual ha sido muy estudiada, permitiendo conocer que dentro del cromosoma 11 en la regin telomrica del brazo Q se encuentra el gen ancestral (Niimura y Nei, 2003), siendo probablemente este el nodo ancestral de la familia o el punto de divergencia de los genes RO sobre los dems cromosomas en donde se encuentran (Glusman et al, 2001). Por otra parte algunos genes RO en mamferos son expresados en las clulas espermatogenticas, y recientes estudios indican que ellos tienen una funcin en la quimiotaxia espermtica (Spehr et al., 2003). Lo anterior, hace parte de las caractersticas moleculares, funcionales y evolutivas que han sido descifradas para esta familia. Pero aun as, es necesario conocer como? Se rigen, expresan y controlan los genes olfativos dentro del sistema del olfato. Esto implica analizar las regiones promotoras de cada uno de los genes, asociar las caractersticas funcionales con los factores de trascripcin de cada gen y finalmente establecer la estructura como tal de la regin promotora de los genes y su relacin con la funcin que el gen cumple. Este trabajo nosotros lo estamos desarrollando, lo cual permitir comprender un poco ms como se regula la funcin de los genes olfativos y tal vez de otros genes.

203

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Referencias

Stryer, L., Beig, J., Tymoezko, J. 2002. Biochemistry, 5ed. Reverte, SA. Malnic, B., Hirono, J., Sato, T., and Buck, L. 1999. combinatorial receptor codes for odors. Cell 96: 713-723 Zozulya, S., Echeverri, F. & Nguyen, T. 2001. The human olfactory receptor repertoire. Genome Biol. 2, research 0018.10018.12. Todd D. Taylor1, Hideki Noguchi1, Yasushi Totoki1, Atsushi Toyoda1, Yoko Kuroki1, Ken Dewar2,Christine Lloyd3, Takehiko Itoh4, Tadayuki Takeda1, DaeWon Kim5, Xinwei She6, Karen F. Barlow3, Toby Bloom2,Elspeth Bruford7, Jean L. Chang2, Christina A. Cuomo2, Evan Eichler6, Michael G. FitzGerald2, David B. Jaffe2,Kurt LaButti2, Robert Nicol2, Hong-Seog Park5, Christopher Seaman2, Carrie Sougnez2, Xiaoping Yang2,Andrew R. Zimmer2, Michael C. Zody2, Bruce W. Birren2, Chad Nusbaum2, Asao Fujiyama1,8, Masahira Hattori1,9,Jane Rogers3, Eric S. Lander2 & Yoshiyuki Sakaki1. (2006) Human chromosome 11 DNA sequence and analysis including novel gene identification. Nature 440: 497 500. Niimura, Y. and Nei, M. 2003. Evolution of olfactory receptor genes in the human genome. Proc. Natl. Acad. Sci. U.S.A. 100: 12235 12240. Zozulya, S., Echeverri, F. & Nguyen, T. 2001. The human olfactory receptor repertoire. Genome Biol. 2, research 0018.10018.12. Glusman, G., Yanai, I., Rubin, I. and Lancet, D. 2001 Genome Res 11: 685702. Spehr, M., Gisselmann, G., Poplawski, A., Riffell, J. A., Wetzel, C. H., Zimmer, R. K. and Hatt, H. 2003. Science 299: 20542058.

204

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Bionanoelectrnica Bionanoelectronics
Velasco, Jaime jvelasco@univalle.edu.co

Universidad del Valle Colombia

Resumen

La Bionanoelectrnica es considerada como las aplicaciones biolgicas o biomdicas de la Nanoelectrnica (ciencia y tecnologa de los dispositivos y sistemas electrnicos en la escala nanomtrica, menor que 100nm). Entonces, con el propsito de alcanzar las anteriores aplicaciones, la Bionanoelectrnica es un campo interdisciplinario de investigacin y desarrollo que incluye principios y fundamentos de qumica, biologa, fsica, medicina, electrnica, nanotecnologa y ciencia de los materiales. En este contexto, la Bionanoelectrnica afectar la industria biomdica con el desarrollo de avanzados bioMEMS-bioNEMS, nanodispositivos biomdicos, biosensores, biochips, rganos bio-artificiales y bionanorobots. Por lo tanto, la Bionanoelectrnica es una tecnologa orientada a mejorar la calidad de la vida humana, es decir, la Bionanoelectrnica ser usada en reas tan diversas como geno-terapia, suministro de medicamentos y nuevas tcnicas para descubrir medicamentos, lo cual generara la prxima tecnologa de las ciencias de la vida, la Bionanomedicina. Tambin, la Bionanoelectrnica afectar otras industrias, en especial las industrias de la electrnica y la computacin con el desarrollo de circuitera electrnica basada en biomateriales, lo cual generara la prxima generacin de computadores, es decir, los Bionanocomputadores o Nanobiocomputadores.
Palabras clave: bioMEMS-bioNEMS, nanodispositivos biomdicos. Abstract

The Bionanoelectronics is considered as the biological or biomedical applications of the Nanoelectronics (science and technology of electronics devices and systems at nanometric scale, less than 100nm). Then, in order to achieve the above applications, the Bionanoelectronics is an interdisciplinary research and development field that includes principles and fundaments of chemistry, biology, physics, medicine, electronics, nanotechnology and materials science. In this context, the Bionanoelectronics will affect the biomedical industry through the development of advanced bioMEMS-bioNEMS, biomedical nanodevices, biosensors, biochips, bioartificial organs and bionanorobots. Therefore, the Bionanoelectronics is a technology addressed to improve the quality of human life, that is, the Bionanoelectronics will be used in areas as diverse as gene therapy, drug delivery and novel drug discovery techniques, which will generate the next life sciences technology, the Bionanomedicine.

205

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Also, the Bionanoelectronics will affect other industries, in special the electronics and computing industries through the development of biomaterial-based electronic circuitry, which will generate the next generation of computers, that is, the Bionanocomputers or Nanobiocomputers.
Keywords: bioMEMS-bioNEMS, biomedical nanodevices, biosensors, Velasco Medina, Jaime. Colombia. Ingeniero Electrnico (Universidad del Valle). DEA en Microelectrnica (Universidad Joseph Fourier, Grenoble, Francia). Doctor en Microelectrnica del (Instituto Nacional Politcnico de Grenoble, Francia). Profesor Titular y Director del Grupo de Investigacin en Bionanoelectrnica de la Escuela de Ingeniera Elctrica y Electrnica de la Universidad del Valle. Sus reas de inters comprenden: diseo de nanomquinas y nanorobots; diseo de sistemas integrados complejos para aplicaciones criptogrficas, biomdicas y control de energa; y diseo de tarjetas de desarrollo para la enseanza de los sistemas digitales y la electrnica anloga.: jvelasco@univalle.edu.co

206

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Estructura Fractal de los Genes Interrumpidos Fractal Structure of the Interrupted Genes
Vlez, Patricia E. 1*, Garreta, Luis E. 2, Martnez, Ember 2, Flechas, Andrs 2, Amador, Siler 2, Daz, Nstor M. 2, Naik, Ashwinikumar K 3, Guterrez Jos M. 4, Tischer, Irene 5, and Moreno, Pedro A. 5 *pvelez06@unicauca.edu.co 1) Departamento de Biologa. Universidad del Cauca, Popayn, Colombia. 2) Facultad de Ingeniera de Sistemas. Universidad del Cauca, Popayn, Colombia. 3) Triestar-science. Bangalore. India. 4) Departamento de Matemticas. Universidad de Cantabria, Santander, Espaa. 5) Escuela de Ingeniera de Sistemas y Computacin. Universidad del Valle, Santiago de Cali, Colombia. Proyecto financiado por Colciencias

Resumen

Un anlisis simple Zipf, un enfoque para estudiar los textos lingsticos permite determinar que los tamaos de los exones y los intrones de los genes interrumpidos estn organizados de una manera jerrquica. Las dimensiones fractales (D < 1.0) de aproximadamente 200.000 genes interrumpidos a partir de 10 genomas eukariotes muestra un espectro estructural normalizado inversamente relacionado con la complejidad del organismo. El espectro permite clasificar varios parmetros del gen, tales como, tamao del gen interrumpido, patrones de procesamiento del ARNm alternativo y estructura secundaria de las protenas produciendo una entramado conceptual para analizar y predecir algunas de las propiedades biolgicas del los genes.
Palabras claves: Fractal, Zipf, genes interrumpidos, espectro estructural, Abstract

A simple Zipf analysis, an approach to study linguistic texts allows to determine that the exon and intron sizes of the interrupted genes are organized into a hierarchical scaling manner. The fractal dimensions (D < 1.0) of about 200,000 interrupted genes from ten eukaryotic genomes show a normalized structural spectrum inversely related with the organismal complexity. The spectrum allows to classify several gene parameters, such as interrupted gene size, number of exons and introns, alternative splicing patterns, several molecular gene functions, and content of protein secondary structure producing a novel conceptual framework to analyze and predict some of the biological properties of the genes.
Keywords: Fractal, Zipf, interrupted genes, structural spectrum. Vlez V. Patricia E. Colombia. Licenciada en Biloga de la Universidad del Cauca. Maestria en Gentica humana de la Universidad Nacional de Colombia. Doctorado en Progreso en el rea de Biomdicas en la Universidad del Valle, Cali. Directora del Grupo de Biologa Ambiental y Cncer (BIMAC), categora A Colciencias. Autora de varios artculos nacionales en gentica humana, genmica, neurociencias, tica y de 3

207

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

libros nacionales. Actualmente, dirige el proyecto Colciencias de Anlisis del genoma humano mediante enfoques fractales.

208

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Genmica Comparativa en Micobacterias: el Potencial tras el Alineamiento Mltiple de Genomas Comparative Genomics in Mycobacteria: Insights from Multiple Genome Alignments
Zambrano Mara Mercedes *, Reyes Alejandro, Cubillos Andrs, * mechas@telesat.com.co Corporacin Corpogen.

Resumen

La variabilidad gentica en micobacterias, que se debe primordialmente a mutaciones cromosomales, puede ayudar a entender las diferencias detrs de las cepas patognicas y especies cercanamente relacionadas. El desarrollo de nuevas tcnicas moleculares y de genmica comparativa, junto con la disponibilidad de genomas micobacterianos secuenciados, permite un anlisis ms detallado de esta variabilidad gentica. Para entender a fondo las diferencias que caracterizan las diversas micobacterias, realizamos un alineamiento mltiple de genomas utilizando los genomas micobacterianos disponibles. Un alineamiento inicial entre M. bovis AF2122/97 y dos cepas de M. tuberculosis (H37Rv y CDC1551) llev a la identificacin de todas las regiones de diferencia (RD y RvDs) previamente descritas. Se observ un colinearidad casi completa y una alta conservacin entre especies del complejo tuberculosis (> 90%). La variabilidad estaba asociada casi siempre con secuencias de IS, fagos y protenas de las familias PE/PPE. Alineamientos realizados con genomas micobacterianos no pertenecientes al complejo tuberculosis revel una gran conservacin en el nmero de genes, a pesar de los grandes rearreglos genmicos y la presencia de regiones ms susceptibles a la acumulacin de mutaciones y rearreglos. Finalmente, una comparacin entre los cuatro genomas disponibles de M. tuberculosis identific pequeas regiones de variabilidad que estn siendo analizadas en ms detalle. Estos anlisis bioinformticos llevaron, por consiguiente, a la identificacin de regiones que varan inter e intraespecies y que sirven como base para estudios experimentales futuros acerca de su relevancia biolgica.
Palabras clave: Mycobacterium tuberculosis, genmica comparativa, alineamientos mltiples, variabilidad gentica, complejo tuberculosis, bioinformtica.

Abstract

Genetic variability in mycobacteria, which is generated mostly by chromosomal mutations, can help to understand differences underlying pathogenic strains and closely related species. The development of more accurate molecular and comparative genomics techniques, together with information obtained from fully sequenced mycobacterial genomes, allow a more detailed analysis of this genetic variability. In order to learn more about the differences that characterize distinct mycobacteria, we

209

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

carried out a multiple genome alignment of the available mycobacterial genomes. An initial alignment of M. bovis AF2122/97 and two M. tuberculosis strains (H37Rv and CDC1551) allowed the identification of all the previously described regions of difference (RD and RvDs). An almost complete colinearity and great degree of conservation was found within species of the tuberculosis complex (> 90%). Variability was associated mainly with IS and phage sequences, or proteins of the PE/PPE family. Alignments carried out with mycobacterial genomes not belonging to the tuberculosis complex revealed that the number of conserved genes was high, in spite of the large genomic rearrangements detected and revealed the presence of Hot Spot regions for the accumulation of mutations and the occurrence of genomic rearrangements. Finally, the comparison of the four M. tuberculosis genomic sequences available revealed small regions of variability that are currently under study. Bioinformatic analysis has therefore revealed differences among strains that can lead to future studies of the biological significance of these changes in the laboratory setting.
Keywords: Mycobacterium tuberculosis, comparative genomics, multiple genome alignments, genetic variability, tuberculosis complex, bioinformatics. Reyes, Alejandro. Microbilogo de la Universidad de los Andes. Se desempea como investigador de la empresa biotecnolgica Corpogen en Bogot. Areas de inters, la biologa molecular del Mycobacterium tuberculosis, genmica comparada y la bioinformtica. Genmica Comparativa en Micobacterias: el Potencial tras el Alineamiento Mltiple de Genomas Resumen

La tuberculosis es un problema global de salud pblica debido a la alta incidencia de la enfermedad y al gran nmero de muertes que causa anualmente. Mycobacterium tuberculosis, agente causal de la enfermedad, hace parte de un complejo de microorganismos conocido como el complejo M. tuberculosis dentro del cual se incluyen las especies M. bovis, M. africanum, M. microti, y recientemente, M. canettii. A pesar de la alta similitud a nivel gentico, es posible diferenciar las bacterias del complejo por sus diversas caractersticas fenotpicas. El anlisis comparativo de este grupo de micobacterias es importante para tratar de entender las bases moleculares de la patognesis y la virulencia. Anlisis previos realizados antes de ser secuenciado el primer genoma de M. tuberculosis revelaron la presencia de regiones de diferencia entre las diferentes especies y entre cepas virulentas y avirulentas. Una vez que se obtuvo la secuencia completa se realizaron diferentes anlisis con ayuda de herramientas informticas que expandieron nuestro conocimiento acerca de las posibles diferencias entre estas micobacterias. La genmica comparativa hoy en da se basa en el uso de herramientas bioinformticas que complementan y potencian la informacin derivada de aproximaciones experimentales. En conjunto, estos anlisis comienzan a revelar facetas nicas de las micobacterias y nos dan una visin ms clara de sus orgenes, su evolucin y los posibles determinantes de patognesis y virulencia.

210

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Palabras clave: Mycobacterium tuberculosis, genmica comparativa, alineamientos mltiples, variabilidad gentica, complejo tuberculosis, bioinformtica. Abstract

Tuberculosis today remains a global public health problem due to the high incidence of the disease and the great number of deaths caused annually. Mycobacterium tuberculosis the causative agent of tuberculosis, belongs to the denominated M. tuberculosis complex which include M. bovis, M. africanum, M. microti and M. canettii. Despite their similarity at the genetic level they display differences at the phenotypic level. The comparative analysis of this group of strains is important in terms of understanding some of the mechanisms underlying pathogenicity and virulence. The analyses carried out before the first complete M. tuberculosis genome became available revealed the presence of regions of difference between species and between virulent and avirulent strains. Later, the available genomic information, coupled to bioinformatic tools, expanded our knowledge regarding the possible differences among these mycobacteria. Comparative genomics today relies on bioinformatic analyses that complement and reinforce the information derived by experimental approaches. Taken together, these studies begin to reveal unique aspects of mycobacteria and offer a broader vision of the origins, evolution and possible virulence determinants in this important group of pathogens.
Keywords: Mycobacterium tuberculosis, comparative genomics, multiple genome alignments, genetic variability, tuberculosis complex, bioinformatics.

Introduccin

La tuberculosis se considera hoy en da una emergencia global de salud pblica debido a que anualmente se registran en el mundo ocho millones de nuevos casos y alrededor de dos millones y medio de muertes (1). En Colombia, la tuberculosis es responsable de 1.328 muertes por ao (DANE estadsticas vitales) y constituye un grave problema de salud pblica, puesto que anualmente se diagnostican, en promedio, 10.000 casos nuevos con una incidencia de 26 por 100.000 habitantes (2). Estas estadsticas podran incrementarse debido al aumento en los casos de VIH, al deterioro en las condiciones de vida y a la aparicin de cepas multirresistentes a drogas. El agente causal de esta enfermedad es la bacteria Mycobacterium tuberculosis, un bacilo gram positivo de crecimiento lento y caractersticas nicas, como su compleja pared celular. M. tuberculosis se transmite por aerosoles y causa infeccin al ser inhalado por su hospedero humano. En la mayora de los casos, el sistema inmune del individuo logra controlar eficientemente la infeccin, sin embargo, en un nmero reducido de infectados, se produce una enfermedad aguda. M. tuberculosis presenta otra caracterstica importante conocida como latencia, en la cual el bacilo persiste de forma asintomtica por largos periodos de tiempo. La tuberculosis latente representan un reservorio de infeccin debido a que el bacilo puede sufrir una reactivacin cuando las condiciones se vuelven ms favorables para su crecimiento, como sucede con personas inmunosuprimidas (3, 4).

211

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

El complejo M. tuberculosis

M. tuberculosis hace parte de un grupo de microorganismos estrechamente relacionados, conformado por M. bovis, M. bovis BCG, M. canettii, M. africanum y M. microti, llamado complejo M. tuberculosis (complejo Tb). Este complejo comparte un 99,9% de identidad a nivel de ADN y sus genes para el 16S rRNA son prcticamente idnticos (5). A pesar de su similitud, las variaciones existentes entre los genomas de estos organismos dan lugar a su clasificacin y deben explicar las diferencias que se observan a nivel de infeccin y patogenicidad. M. bovis, por ejemplo, es capaz de infectar un amplio rango de hospederos, entre los cuales se incluye ganado bovino, caprino y ovino. Este microorganismo tambin es capaz de causar enfermedad en el humano, produciendo una tuberculosis prcticamente indistinguible de la causada por M. tuberculosis, mientras este ltimo se encuentra restringido al humano. Estudios realizados con aislamientos del complejo Tb han identificado regiones genmicas polimrficas que sirven como base para la identificacin y diferenciacin entre ellas. Es as como se han detectado regiones entre las que se puede mencionar la RvD1, la cual se encuentra presente en la gran mayora de aislamientos de M. bovis pero se encuentra delecionada del genoma de M. tuberculosis H37Rv y del genoma de muchas cepas clnicas (6). Por su parte, la mayora de los aislados de M. tuberculosis poseen la secuencia llamada mtp40 que la discrimina en la mayora de los casos de los otros miembros del complejo Tb (7).
Tipificacin molecular y anlisis filogenticos

Algunos loci polimrficos sirven como marcadores y son tiles para estudios de tipificacin y evolucin molecular (8). Entre ellos est el locus que contiene repeticiones directas (DRs) separadas por espaciadores de secuencias variables. La identificacin de las variaciones en la regin DR es el fundamento para la tipificacin molecular de cepas por la tcnica llamada spoligotyping (9). Tambin se han identificado regiones variables en tandem distribuidas en el genoma, denominadas MIRUs (mycobacterial interspersed repetitive units), que sirven para distinguir entre aislamientos cercanamente relacionados (10). Finalmente, las micobacterias, como otros organismos, poseen elementos de insercin en sus genomas. El anlisis de la distribucin de la secuencia de insercin IS6110, por medio de la identificacin de fragmentos de restriccin polimrficos (RFLPs), se ha utilizado tradicionalmente para tipificacin de cepas de M. tuberculosis y es hoy en da el mtodo de referencia para caracterizar aislamientos y brotes epidmicos (10). Diferentes estudios han indicado que las poblaciones de M. tuberculosis tienen una estructura de tipo clonal (11, 12). Esta caracterstica permite el uso de polimorfismos genmicos para comparar cepas y especies con el fin de establecer relaciones genticas y evolutivas entre aislamientos. Uno de los grandes enigmas del complejo Tb es el origen de sus diversos miembros; dentro de los cuales se asuma que M. tuberculosis, por tener un rango de hospedero ms restringido, probablemente provena de M. bovis. Por medio del estudio de presencia y ausencia de fragmentos genmicos se concluy que, contrario a lo que se pensaba, M. tuberculosis no se origin a partir de una zoonosis de M. bovis. El anlisis de un gran nmero de cepas del complejo Tb, originarias de diversos puntos geogrficos, indic que la distribucin de 20 regiones

212

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

variables resultantes de eventos de insercin o delecin no era independiente, al contrario estaban estrechamente relacionadas a las distintas especies del complejo Tb. De esta manera se estableci que el linaje constituido por M. africanum, M. microti y M. bovis divergi de un ancestro comn antes de que ste diera lugar al linaje moderno de M. tuberculosis (Figura 1) (13).

Figura 1: Eventos de delecin (casillas grises) que muestran las relaciones evolutivas de las especies del complejo Tb. Grfica modificada de Brosch et al, (13).

Hoy en da, y gracias en gran parte al poder discriminativo que ofrece la secuenciacin de cidos nucleicos, se utilizan tambin polimorfismos de nucletidos sencillos, o SNPs, para hacer seguimiento y filogenia de cepas del complejo Tb y en particular de M. tuberculosis. El uso de SNPs es muy til para estudios filogenticos en los que se busca establecer una relacin evolutiva entre organismos dado que, a diferencia de los polimorfismos grandes como aquellos generados por IS6110, los SNPs estn sujetos a una menor presin selectiva y se consideran marcadores ms confiables de divergencia gentica entre aislamientos. Un estudio inicial utilizando un nmero limitado de SNPs identific tres grupos predominantes dentro de la especie M. tuberculosis (14). Dado que el poder discriminatorio aumenta a medida que se incluyen ms polimorfismos, un anlisis realizado con mltiples loci en el genoma llev a la identificacin de cuatro linajes predominantes en M. tuberculosis que estn estrechamente relacionados a M. bovis y que, adicionalmente, parecen estar fuertemente asociados con la distribucin geogrfica (12). Ms recientemente se realiz una filogenia global de cepas de M. tuberculosis basada en 212 SNPs en completo desequilibrio de ligamiento, identificados a travs de comparacin de los diferentes genomas secuenciados. Este anlisis describi seis grupos filogenticos importantes que tambin estan relacionados con el origen geogrfico de los aislamientos y de su hospedero humano (15). Este trabajo gener una clasificacin ms robusta que sirve como base para estudios epidemiolgicos y anlisis evolutivos de poblaciones micobacterianas.
Genmica comparativa

La identificacin de diferencias genmicas entre aislados de M. tuberculosis y entre especies del complejo Tb representa hoy en da un reto puesto que se asume que estas variaciones podran relacionarse de alguna manera con diferencias biolgicas entre estos organismos. Existen reportes que indican que la variacin gentica intra-especfica en M. tuberculosis puede influenciar la respuesta inmune del hospedero, el grado de virulencia y la diseminacin global de ciertos genotipos (15). Por consiguiente, la identificacin y posterior anlisis de las diferencias genmicas detrs de los aislados del

213

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

complejo Tb pueden ayudar a entender las bases biolgicas que diferencian a estos patgenos. El estudio de estas diferencias por medio de comparacin de genomas constituye lo que se conoce como genmica comparativa. En contraste con algunas especies bacterianas, como Salmonella y Escherichia coli, M. tuberculosis posee poca variabilidad gentica (14). Esto se debe primordialmente a mutaciones a nivel cromosomal ya que la transferencia horizontal de genes no juega un papel importante en la variabilidad gentica de este patgeno (16, 17). Esta caracterstica quizs es un reflejo del nicho restringido de este microorganismo que ha coexistido y evolucionado con su hospedero humano desde hace mucho tiempo (14). En los ltimos aos, el desarrollo de nuevas tcnicas moleculares, en conjunto con las nuevas aproximaciones post-genmicas, y la disponibilidad de poderosas herramientas informticas, permiten hacer anlisis globales de organismos; incrementando la capacidad de anlisis comparativo de los genomas de estas micobacterias.
Aproximaciones experimentales iniciales

Una de las primeras aproximaciones utilizadas para identificar mutaciones causantes de diferencias en la patognesis de las micobacterias fue la comparacin entre cepas relacionadas pero con diferencias a nivel de su virulencia. Desde principios del siglo pasado se utiliza como cepa vacunal a M. bovis BCG, cepa atenuada mediante pases sucesivos de M. bovis en medios de cultivo, que an suscita una respuesta inmune celular robusta (18). Por consiguiente, M. bovis y M. bovis BCG representan dos organismos estrechamente relacionados con marcadas diferencias fenotpicas. Mediante la utilizacin de hibridacin genmica sustractiva (19) realizada entre las cepas virulentas M. bovis y M. tuberculosis y la cepa avirulenta M. bovis BCG, se identificaron por primera vez tres regiones (RD1 RD3) que estaban ausentes (delecionadas) en BCG (20). Posteriormente, se utilizaron libreras ordenadas en BACs (cromosomas artificiales bacterianos) para comparar M. tuberculosis H37Rv y M. bovis BCG, con lo cual se extendi el anlisis anterior y se identificaron deleciones adicionales en BCG (RD4 RD10). En este estudio tambin se identificaron regiones ausentes en M. tuberculosis H37Rv, con respecto a M. bovis y M. bovis BCG, denominadas RvD1 y RvD2 (21). Finalmente, el anlisis comparativo entre la cepa virulenta M. tuberculosis H37Rv y su derivada avirulenta, H37Ra, identific eventos de delecin mediados por la secuencia de insercin IS6110 (RvD2 RvD5) (22). La informacin generada a travs de estos trabajos de biologa molecular sirvi como primer paso para entender los cambios genticos presentes en cepas con diferencias en virulencia. Como resultado, se sabe hoy en da que M. bovis BCG sufri una prdida de material gentico que result en una atenuacin de la cepa virulenta parental para dar lugar a una variante til para inmunizacin. Sin embargo, y a pesar de conocer los sitios ausentes en la cepa vacunal, es todava difcil identificar claramente los factores implicados en virulencia y hacer una correlacin directa entre genotipo y fenotipo. Uno de los grandes retos actuales es precisamente entender la funcin y la relevancia biolgica de la informacin presente en el genoma de un organismo para poder establecer un vnculo claro entre genes especficos y patognesis.

214

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

La era genmica

A pesar de su gran utilidad para identificar diferencias genmicas, estas aproximaciones moleculares resultan a veces bastante laboriosas. La secuenciacin en 1998 del primer genoma completo de M. tuberculosis cambi el panorama de la genmica comparativa y abri nuevas posibilidades para realizar anlisis entre cepas (23). El genoma de M. tuberculosis es de 4.4 Mpb, tiene un alto contenido de G + C (65.6%) y contiene aproximadamente 4000 genes, de los cuales el 48% se clasifican como hipotticos conservados o desconocidos (24). Un hallazgo muy interesante fue la identificacin de un gran nmero de genes pertenecientes a las llamadas familias PE y PPE. Las protenas de estas familias poseen un dominio conservado en su extremo N-terminal, con motivos tipo Pro-Glu (PE) o Pro-Pro-Glu (PPE), y aunque no se conoce aun su funcin se cree que estas protenas pueden estar involucradas en evasin de respuesta inmune (5). Adems de revelar nuevas caractersticas y la composicin de los grupos funcionales presentes, la secuencia del genoma de M. tuberculosis H37Rv abri la posibilidad de hacer anlisis globales de este microorganismo. Con base en esta informacin genmica se hicieron microarreglos de ADN, una tecnologa que permite analizar todos los genes presentes en un organismo simultneamente (25). Esta tecnologa se utiliz inicialmente para realizar una hibridacin comparativa entre M. tuberculosis y cepas de M. bovis y M. bovis BCG (18). Por medio de este anlisis se identificaron regiones ausentes en los diferentes genomas (Figura 2). Con la informacin obtenida se logr tambin reconstruir una genealoga de las cepas de BCG distribuidas a nivel mundial, en la cual las deleciones identificadas sirvieron para describir la evolucin de estas cepas a travs del tiempo. Es evidente, por consiguiente, que los microarreglos representan una estrategia con un inmenso poder para detectar rpidamente variaciones entre diferentes microorganismos. Esta estrategia fue llevada a otro nivel en las micobacterias al utilizar microarreglos para el anlisis de bancos de mutantes generados por transposicin. De esta manera se identificaron genes de M. tuberculosis que son esenciales para crecimiento in vitro e in vivo (26, 27), informacin que complementa los datos obtenidos a partir de la secuencia del genoma ya que sirve para atribuirle una funcin biolgica a algunos de los genes desconocidos. En general, los anlisis con microarreglos proveen una visin amplia de los cambios que caracterizan a los diferentes aislados y de los genes que pueden estar implicados en crecimiento o involucrados en los procesos infectivos de M. tuberculosis.

215

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Figura 2: Regiones delecionadas en M. bovis BCG con respecto a M. tuberculosis H37Rv. Grfica de las regiones descritas por Behr et al, (18) disponible en web: http://www.pasteur.fr/recherche/unites/Lgmb/Deletion.html

Bioinformtica

La secuenciacin de genomas microbianos avanza de manera acelerada con ms de 367 genomas secuenciados, se espera que para el ao 2007 estn disponibles 21 genomas micobacterianos. La disponibilidad de la informacin contenida en las secuencias genmicas genera una necesidad de desarrollar herramientas bioinformticas que permitan su anlisis y explotacin. Los primeros mtodos de comparacin de secuencias fueron diseados para identificar sustituciones de nucletidos y pequeas inserciones y deleciones mediante la realizacin de alineamientos pareados o mltiples de secuencias cortas, tal y como son los algoritmos de alineamientos globales de Needleman-Wunsch y de alineamientos locales de Smith-Waterman. El alineamiento in silico de las secuencias de los genomas completos es la estrategia ms informativa de genmica comparativa. El anlisis comparativo global debe tener en cuenta la organizacin y la estructura del genoma como un conjunto, puesto que adems de inserciones y deleciones, los genomas pueden sufrir eventos evolutivos de gran escala como lo son el reordenamiento de elementos genticos causados por inversin de regiones repetitivas o translocaciones (28, 29). Los sistemas bioinformticos de comparacin de genomas deben tener en cuenta todos estos eventos evolutivos para proveer una visin completa de las diferencias genticas que ocurren dentro de los organismos, es por esto que se han desarrollado algoritmos que permiten la comparacin de grandes secuencias genmicas de una manera pareada (MUMmer) (30) o de manera mltiple (MAUVE) (31). Nuestro grupo ha venido realizando alineamientos mltiples de los genomas de M. tuberculosis, M. bovis y M. bovis BCG donde observamos un alto grado de conservacin en la estructura del genoma caracterizado por la ausencia de grandes rearreglos genmicos,

216

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

confirmando que la variacin gentica existente dentro de los agentes causales de la tuberculosis esta dada preferencialmente por pequeas inserciones y deleciones. En contraste, al realizar el alineamiento mltiple de los genomas de micobacterias del complejo Tb frente a micobacterias patgenas no tuberculosas como M. avium paratuberculosis, M. marinum y M. leprae, se observ un alto grado de conservacin de los elementos genticos pero con un elevado nivel de reordenamiento, representado por translocaciones e inversiones (resultados sin publicar). En particular, la aproximacin bioinformtica en la genmica comparativa tiene la capacidad de identificar este tipo de reordenamientos genticos que mediante las estrategias experimentales actuales no es posible analizar, brindando nuevas perspectivas para el entendimiento de las diferencias en la patognesis de grupos tan complejos como los son las micobacterias.
Conclusiones y perspectivas

La disponibilidad actual de secuencias de genomas completos de micobacterias ha incrementado exponencialmente los anlisis realizables tanto in vitro como in silico, estos anlisis no solo han permitido mejorar los sistemas de tipificacin incluyendo nuevos marcadores moleculares como los SNPs, sino que han permitido plantear modelos evolutivos de la micobacteria en relacin a su hospedero y a lugares geogrficos. Los resultados obtenidos se han basado en el anlisis y comparacin de un nmero pequeo de genomas y an as los avances han sido inmensos. El futuro a corto plazo es prometedor y el anlisis de ms genomas no solo permitir una mejor tipificacin y seguimiento del proceso evolutivo de las micobacterias sino que dar luces definitivas a los cambios genticos causantes de cambios fenotpicos como atenuaciones o prdida de la virulencia en algunas cepas. Entre ms se conozca de la secuencia y de la organizacin y estructura genmica mejor se entendern las relaciones y regulaciones genticas que llevarn a la identificacin de verdaderos genes blancos de drogas y vacunas que lleven a un control efectivo de la tuberculosis.
Referencias
1. WHO. Global Tuberculosis Programme. Laboratory Services in Tuberculosis Control. Geneva: WHO; 1998. 2. Chaparro PE, Garcia I, Guerrero MI, Len CI. Situacin de la tuberculosis en Colombia 2002, Biomedica, 2004; 24, 102-114. 3. Smith I. Mycobacterium tuberculosis pathogenesis and molecular determinants of virulence, Clin Microbiol Rev, 2003; 16, 463-496. 4. Zahrt TC. Molecular mechanisms regulating persistent Mycobacterium tuberculosis infection, Microbes Infect, 2003; 5, 159-167. 5. Cole ST. Comparative and functional genomics of the Mycobacterium tuberculosis complex, Microbiology, 2002; 148, 2919-2928. 6. Rodriguez JG, Fissanoti JC, Del Portillo P, Patarroyo ME, Romano MI, Cataldi A. Amplification of a 500-base-pair fragment from cultured isolates of Mycobacterium bovis, J Clin Microbiol, 1999; 37, 2330-2332. 7. Del Portillo P, Murillo LA, Patarroyo ME. Amplification of a species-specific DNA fragment of Mycobacterium tuberculosis and its possible use in diagnosis, J Clin Microbiol, 1991; 29, 2163-2168. 8. Brudey K, Driscoll JR, Rigouts L, Prodinger WM, Gori A, Al-Hajoj SA et al. Mycobacterium tuberculosis complex genetic diversity : mining the fourth international spoligotyping database (SpolDB4) for classification, population genetics and epidemiology, BMC Microbiol, 2006; 6, 23.

217

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

9. Kamerbeek J, Schouls L, Kolk A, van Agterveld M, van Soolingen D, Kuijper S et al. Simultaneous detection and strain differentiation of Mycobacterium tuberculosis for diagnosis and epidemiology, J Clin Microbiol, 1997; 35, 907-914. 10. Barnes PF, Cave MD. Molecular epidemiology of tuberculosis, N Engl J Med, 2003; 349, 11491156. 11. Ahmed N, Alam M, Rao KR, Kauser F, Kumar NA, Qazi NN et al. Molecular genotyping of a large, multicentric collection of tubercle bacilli indicates geographical partitioning of strain variation and has implications for global epidemiology of Mycobacterium tuberculosis, J Clin Microbiol, 2004; 42, 3240-3247. 12. Baker L, Brown T, Maiden MC, Drobniewski F. Silent nucleotide polymorphisms and a phylogeny for Mycobacterium tuberculosis, Emerg Infect Dis, 2004; 10, 1568-1577. 13. Brosch R, Gordon SV, Marmiesse M, Brodin P, Buchrieser C, Eiglmeier K et al. A new evolutionary scenario for the Mycobacterium tuberculosis complex, Proc Natl Acad Sci U S A, 2002; 99, 3684-3689. 14. Sreevatsan S, Pan X, Stockbauer KE, Connell ND, Kreiswirth BN, Whittam TS et al. Restricted structural gene polymorphism in the Mycobacterium tuberculosis complex indicates evolutionarily recent global dissemination, Proc Natl Acad Sci U S A, 1997; 94, 9869-9874. 15. Filliol I, Motiwala AS, Cavatore M, Qi W, Hazbon MH, Bobadilla del Valle M et al. Global phylogeny of Mycobacterium tuberculosis based on single nucleotide polymorphism (SNP) analysis: insights into tuberculosis evolution, phylogenetic accuracy of other DNA fingerprinting systems, and recommendations for a minimal standard SNP set, J Bacteriol, 2006; 188, 759-772. 16. Fleischmann RD, Alland D, Eisen JA, Carpenter L, White O, Peterson J et al. Whole-genome comparison of Mycobacterium tuberculosis clinical and laboratory strains, J Bacteriol, 2002; 184, 54795490. 17. Gutierrez MC, Brisse S, Brosch R, Fabre M, Omais B, Marmiesse M et al. Ancient origin and gene mosaicism of the progenitor of Mycobacterium tuberculosis, PLoS Pathog, 2005; 1, e5. 18. Behr MA, Wilson MA, Gill WP, Salamon H, Schoolnik GK, Rane S et al. Comparative genomics of BCG vaccines by whole-genome DNA microarray, Science, 1999; 284, 1520-1523. 19. Winstanley C. Spot the difference: applications of subtractive hybridisation to the study of bacterial pathogens, J Med Microbiol, 2002; 51, 459-467. 20. Mahairas GG, Sabo PJ, Hickey MJ, Singh DC, Stover CK. Molecular analysis of genetic differences between Mycobacterium bovis BCG and virulent M. bovis, J Bacteriol, 1996; 178, 1274-1282. 21. Gordon SV, Brosch R, Billault A, Garnier T, Eiglmeier K, Cole ST. Identification of variable regions in the genomes of tubercle bacilli using bacterial artificial chromosome arrays, Mol Microbiol, 1999; 32, 643-655. 22. Brosch R, Philipp WJ, Stavropoulos E, Colston MJ, Cole ST, Gordon SV. Genomic analysis reveals variation between Mycobacterium tuberculosis H37Rv and the attenuated M. tuberculosis H37Ra strain, Infect Immun, 1999; 67, 5768-5774. 23. Cole ST, Brosch R, Parkhill J, Garnier T, Churcher C, Harris D et al. Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence, Nature, 1998; 393, 537-544. 24. Camus JC, Pryor MJ, Medigue C, Cole ST. Re-annotation of the genome sequence of Mycobacterium tuberculosis H37Rv, Microbiology, 2002; 148, 2967-2973. 25. Brown PO, Botstein D. Exploring the new world of the genome with DNA microarrays, Nat Genet, 1999; 21, 33-37. 26. Sassetti CM, Boyd DH, Rubin EJ. Genes required for mycobacterial growth defined by high density mutagenesis, Mol Microbiol, 2003; 48, 77-84. 27. Sassetti CM, Rubin EJ. Genetic requirements for mycobacterial survival during infection, Proc Natl Acad Sci U S A, 2003; 100, 12989-12994. 28. Tillier ER, Collins RA. Genome rearrangement by replication-directed translocation, Nat Genet, 2000; 26, 195-197. 29. Eichler EE, Sankoff D. Structural dynamics of eukaryotic chromosome evolution, Science, 2003; 301, 793-797. 30. Delcher AL, Kasif S, Fleischmann RD, Peterson J, White O, Salzberg SL. Alignment of whole genomes, Nucleic Acids Res, 1999; 27, 2369-2376. 31. Darling AC, Mau B, Blattner FR, Perna NT. Mauve: multiple alignment of conserved genomic sequence with rearrangements, Genome Res, 2004; 14, 1394-1403.

218

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Indice de autores / Index Authors

A
Aguilera Selene, 121 lvarez-Morales, Ariel, 121 Amador, Siler, 207 Anczar, Fabio, 131 Aranda, Jess A., 1 Aristizbal Gutirrez, 131

K
Klinger, Julio C, 96, 98

L
Lareo, Leonardo R, 99, 101 Lpez, Camilo, 103, 113 Lpez-Lpez, Karina, 121

B
Bedoya, Oscar, 15 Blanco, Sandra, 17 Buell, R, 66 Burgos, Javier D., 26, 52

M
Mrquez, German, 52 Martnez, Ember, 86, 207 Montoya Castao, Dolly, 131 Montoya Solano, Jos David, 131 Moreno, Pedro A., 1, 17, 142, 144, 156, 168, 202, 207 Mueller, L, 66

C
Cajas Salazar, Nohelia, 64 Cristancho, Marco, 66 Cuarn J., Margot E, 74 Cuesta, Yesid, 188

N
Naik, Ashwinikumar K, 207

Ch
Chalarca, A, 66

O
Ordez, Paula, 188 Orozco, C, 66 Ortiz, James J., 1

D
Da Silva, Felipe Rodrigues, 85 Daz, Nstor M, 86, 207

P
Pannay, Joel, 188 Parra Plaza, Jaime Alberto, 175 Pea Paz, Lyda, 176 Prez, Julia A, 52 Pons, Mara Rosa, 186

F
Fernandes Formighieri, Eduardo, 87 Flechas, Andrs, 207

G
Garcia, Felipe, 95 Garreta, Luis E., 88, 207 Gutierrez Godoy, Jorge Eduardo, 176 Guterrez Jos M, 207

R
Rincn, Magner, 26 Rivera, L, 66 Rodrguez A. Adrin C, 144

H
Hernndez-Flores, Jos Luis, 121

S
Snchez, Adalberto, 188 Sierra-Torres, Carlos Hernn, 189 Surez Moreno, Zulma Roco, 131

219

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

T
Tischer, Irene, 74, 88, 156, 168, 191, 207 Tobar, Fabin, 202

Velasco, Jaime, 205 Vlez, Patricia E., 17, 142, 144, 156, 168, 202, 207

Z
Zambrano Mara Mercedes, 209

V
Vaca-Vaca, Juan Carlos, 121

220

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Indice de palabras claves / Index of Keywords

Academics pensum................... 159, 171 Algorithm ......................................... 101 Algorithms ......................................... 88 Alternative splicing .......................... 103 Alternative splicing, subunits........... 103 amtA ................................................. 122 Anlisis de secuencia ......................... 66 Anlisis de secuencias...................... 122 Anlisis multifractal ........................... 17 Analysis of biological sequences ..... 194 Antibodies .......................................... 97 Aprendizaje Automtico .................. 180 argK ................................................. 122 Bayesian Networks............................. 88 Bioinformtica ................... 66, 104, 133 Bioinformatics. 16, 67, 85, 86, 105, 134, 159, 171, 213 Biologa de Sistemas ............................ 1 Biomarcadores moleculares ............... 64 Biomedical nanodevices................... 209 Biomdicos....................................... 208 BioMEMS-bioNEMS............... 208, 209 Bioprospeccin................................. 133 Bioprospecting ................................. 134 Biosensors ........................................ 209 Caos.................................................. 189 Cassava............................................. 115 Cassava bacterial blight ................... 115 Cellular immunity .............................. 98 Cellulolysis....................................... 134 Celulolisis......................................... 133 CGR ................................................... 17 Chaos................................................ 190 Classification...................................... 16 Clostridium............................... 133, 134 Coffea arabica.............................. 66, 67 Coffee Genomics.......................... 66, 67 COG core ......................................... 147 Common genes................................. 148 Comparative genomics..................... 213 Complex system ............................... 190 Concurrencia ........................................ 1 Concurrent........................................ 178 Condiciones iniciales ....................... 189

Constrained-based ............................178 Core COG.........................................148 Crop science .......................................85 Cyanobacteria...................................148 Cyanobacterias .................................147 Cytokines............................................97 Cytokynes...........................................98 Data mining ..................................86, 87 Decision trees .....................................16 Distributed programming languages 178 DPB ..................................................125 Electronic celular modeling .............178 Elementos cis-reguladores..................75 Environmental management...............52 EST...................................................115 Estructura fractal ..............................189 Estructura secundaria de protenas...124 ESTs ...................................85, 104, 105 Exon model ........................................16 Factor de influencia..........................124 Familias de Genes ............................205 Fitopatolgico.....................................87 Flowcytometry ...................................97 Fotosntesis.......................................147 Fractal...............................................210 Fractal structure................................190 Fractals ...............................................52 Frecuencias de aparicin ..................124 Frequency of appearance..................125 Gen Pol cepa ATK-1........................191 Gene ontology ....................................86 Gene prediction ..........................16, 194 Gene prediction, mixture of experts...88 Genes................................................102 Genes compartidos ...........................147 Genetic polymorphism .......................98 Genetic variability ............................213 Genome ..............................................85 Genomic library................................134 Genmica .................................104, 133 Genomics..........105, 115, 134, 159, 193 Glutamate, genes ..............................103 Glutamato .........................................102

221

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Herramientas computacionales de prediccin....................................... 74 Housekeeping genes......................... 134 HTLV-1............................................ 191 Human genome ................................ 146 Human genome project .................... 193 Human health ................................... 193 Immune regulation ............................. 97 Immune system .................................. 97 Immunology ....................................... 97 Influence factor ................................ 125 Initial conditions .............................. 190 Inmune activation............................... 98 Interaccin planta-patgeno ............. 104 Interactome....................................... 146 Interrupted genes.............................. 210 Librera genmica ............................ 133 Low structured regions..................... 101 Lymphocytes ...................................... 98 Lymphokines...................................... 98 Major folding patterns...................... 101 Mantenimiento celular ..................... 133 Markov ............................................... 74 Markov models ................................ 194 Metabolmica..................................... 64 Meteorolgica .................................. 189 Microarray.................................. 87, 115 Microarrays ...................................... 105 Microarreglo....................................... 64 Microarreglos ................................... 104 MIMO ................................................ 74 Modeling .......................................... 101 Modelizacin.................................... 189 Molecular biology .............................. 85 Moniliophthora perniciosa ................ 87 Multifractal analysis........................... 17 Multiple genome alignments............ 213 Multi-scale processes ....................... 190 Mycobacterium tuberculosis ............ 213 Nanodispositivos .............................. 208 No-linealidad.................................... 189 Non-linearity .................................... 190 Operome........................................... 146 Paquete smart ................................... 191 Paradigmas de programacin ............... 1 PDB.................................................. 124 Phaseolotoxin synthesis ................... 123 Photosynthesis.................................. 148

Physiome ..........................................146 Plant-pathogen interaction................105 Plegamiento de protenas .................180 Postgenomics....................................146 Power laws .........................................52 Prediction of structure ......................194 Prioritizing..........................................52 Probabilidad de estructura secundaria ......................................................124 Procesos multi-escala .......................189 Procianobacterias .............................147 Procyanobacteria ..............................148 Programacin .......................................1 Promotor.............................................75 Protein secondary structure ..............125 Protenas .............................................17 Protemica..........................................64 Pseudomonas syringae .....................122 Pseudomonas syringae pv. phaseolicola ......................................................123 Public health.....................................193 Pv. Phaseolicola ...............................122 Receptor ...................................102, 103 Receptores del Olfato Humano ........205 reconfigurable Computation; Biocomputing ...............................178 Regiones reguladoras .......................102 Regulating regions............................103 Residue triplets.................................125 Resistance.........................................115 Restricciones ........................................1 RJC .....................................................17 SCOP................................................180 Secondary structure probability .......125 Secuencia global.................................74 Secuenciacin...................................104 Secuencias de ADN............................17 Sequence analysis.......................67, 123 Sequencing .................................85, 105 Shared interactions ...........................146 Sntesis de faseolotoxina ..................122 Sistema complejo .............................189 Sitios de splicing ..............................102 Small structural motifs .....................101 Solventogenesis................................134 Solventognesis................................133 Structural spectrum ..........................210 Subunidades .....................................102

222

The 2nd International Seminar on Genomics, Proteomics, Bioinformatics and Systems Biology"2006

Susceptibility.................................... 193 Systems biology ............................... 159 Three-dimensional structure............. 101 Toxicogenmica................................. 64 Tripletas de aminocidos ................. 124 Tuberculosis complex ...................... 213

Upport vector machine .......................16 Weather modelization ......................190 Zipf ...................................................210 1,3-propandiol ..................................133 1,3-propanediol ................................134

223

Das könnte Ihnen auch gefallen