CIFASIS   20631
CENTRO INTERNACIONAL FRANCO ARGENTINO DE CIENCIAS DE LA INFORMACION Y DE SISTEMAS
Unidad Ejecutora - UE
capítulos de libros
Título:
GibbsSM: Predicción Automática de Motivos mediante Muestreo Gibbs
Libro:
III Jornada de Ciencia y Tecnología 2009
Editorial:
UNR EDITORA
Referencias:
Lugar: Rosario; Año: 2010;
Resumen:
El reconocimiento de patrones comunes (motivos) en la evolución, en la disposición estructural, o en la funcionalidad biológica de un conjunto de secuencias es un problema importante en Biología Computacional. El problema de detección de motivos requiere la determinación de la ubicación y la composición de los motivos subyacentes a partir del conjunto de biosecuencias desalineadas y afectadas por ruido de evolución. Desde el punto de vista computacional el problema planteado es NP completo, lo cual motiva la introducción de métodos heurísticos para la búsqueda de soluciones aproximadas. En este contexto, el modelado estadístico de biosecuencias mediante muestreo Gibbs permite el diseño de soluciones aproximadas con complejidad lineal respecto a la longitud de las secuencias cuando su número es reducido, o bien respecto al número de biosecuencias cuando las mismas son de longitud reducida. Presentamos GibbsSM, un software para la detección automática de motivos en biosecuencias basada en la metodología de muestreo Gibbs. GibbsSM está escrito en lenguaje Java y posee una interfaz amigable para el ingreso de datos y parámetros. En GibbsSM se distinguen cuatro módulos: Entrada, Control, Método y Reporte. Entrada, que constituye la interfaz con el usuario, permite el ingreso del archivo de secuencias, el ancho del motivo buscado, y parámetros adicionales relativos al muestreo Gibbs. Control verifica la coherencia de los datos ingresados y da lugar a la ejecución de Método. Reporte muestra los resultados: las posiciones de comienzo del motivo en cada una de las secuencias y el perfil que describe el motivo. El perfil se refiere a las matrices que contienen las probabilidades de los residuos en cada posición del motivo y las probabilidades del “background”. Para la evaluación de GibbsSM se seleccionaron grupos de secuencias de familias de proteínas divergentes en su función y con escasa relación a nivel de secuencia. Los grupos se identificaron como Ciclina y Bromodominio. El grupo Ciclina forma una familia de proteínas con gran variedad de tamaño con un único motivo. El grupo Bromodominio constituye una familia completamente divergente de proteínas con distintas funciones que sólo se encuentran emparentadas por la presencia del motivo. Las secuencias fueron obtenidas en formato Fasta de la base de datos Pfam. Adicionalmente, el grupo Ciclina fue procesado con el programa MEGA3 para la obtención de una matriz de distancia entre las proteínas del grupo. Esta matriz fue utilizada para obtener 2 subgrupos, de tal manera que las distancias entre las proteínas en uno cualquiera de los subgrupos fuera mayor a cierto umbral que asegura un mínimo de proteínas en cada subgrupo. El objetivo de dicha partición fue analizar el comportamiento de GibbsSM  bajo distintas condiciones de trabajo. Los resultados obtenidos con GibbsSM se compararon con los de MEME (Multiple Expectation Maximization for Motif Elicitation), herramienta de uso corriente para la detección de motivos. Los resultados, que fueron analizados tanto desde un punto de vista computacional como biológico, fueron satisfactorios La consistencia de los resultados obtenidos sugiere que el modelado de secuencias mediante muestreo Gibbs podría ser efectivo para la detección de motivos extremos, tal el caso de motivos muy breves subyacentes en conjuntos de secuencias de muy baja identidad.