CIFASIS   20631
CENTRO INTERNACIONAL FRANCO ARGENTINO DE CIENCIAS DE LA INFORMACION Y DE SISTEMAS
Unidad Ejecutora - UE
capítulos de libros
Título:
GibbsSM: Predicción Automática de Motivos mediante Muestreo Gibbs
Autor/es:
ANGELONE, L.; ORNELLA, L.; BULACIO, P.; TAPIA, E.
Libro:
III Jornada de Ciencia y Tecnología 2009
Editorial:
UNR Editora
Referencias:
Lugar: Rosario; Año: 2009;
Resumen:
El reconocimiento de patrones comunes (motivos) en la evolución, en ladisposición estructural, o en la funcionalidad biológica de un conjunto desecuencias es un problema importante en Biología Computacional. El problema dedetección de motivos requiere la determinación de la ubicación y la composición delos motivos subyacentes a partir del conjunto de biosecuencias desalineadas yafectadas por ruido de evolución. Desde el punto de vista computacional el problemaplanteado es NP completo, lo cual motiva la introducción de métodos heurísticos parala búsqueda de soluciones aproximadas. En este contexto, el modelado estadístico debiosecuencias mediante muestreo Gibbs permite el diseño de soluciones aproximadascon complejidad lineal respecto a la longitud de las secuencias cuando su número esreducido, o bien respecto al número de biosecuencias cuando las mismas son delongitud reducida. Presentamos GibbsSM, un software para la detección automática demotivos en biosecuencias basada en la metodología de muestreo Gibbs. GibbsSM estáescrito en lenguaje Java y posee una interfaz amigable para el ingreso de datos yparámetros. En GibbsSM se distinguen cuatro módulos: Entrada, Control, Método yReporte. Entrada, que constituye la interfaz con el usuario, permite el ingreso delarchivo de secuencias, el ancho del motivo buscado, y parámetros adicionalesrelativos al muestreo Gibbs. Control verifica la coherencia de los datos ingresadosy da lugar a la ejecución de Método. Reporte muestra los resultados: las posicionesde comienzo del motivo en cada una de las secuencias y el perfil que describe elmotivo. El perfil se refiere a las matrices que contienen las probabilidades de losresiduos en cada posición del motivo y las probabilidades del "background". Para laevaluación de GibbsSM se seleccionaron grupos de secuencias de familias de proteínasdivergentes en su función y con escasa relación a nivel de secuencia. Los grupos seidentificaron como Ciclina y Bromodominio. El grupo Ciclina forma una familia deproteínas con gran variedad de tamaño con un único motivo. El grupo Bromodominioconstituye una familia completamente divergente de proteínas con distintas funcionesque sólo se encuentran emparentadas por la presencia del motivo. Las secuenciasfueron obtenidas en formato Fasta de la base de datos Pfam. Adicionalmente, el grupoCiclina fue procesado con el programa MEGA3 para la obtención de una matriz dedistancia entre las proteínas del grupo. Esta matriz fue utilizada para obtener 2subgrupos, de tal manera que las distancias entre las proteínas en uno cualquiera delos subgrupos fuera mayor a cierto umbral que asegura un mínimo de proteínas en cadasubgrupo. El objetivo de dicha partición fue analizar el comportamiento de GibbsSM bajo distintas condiciones de trabajo. Los resultados obtenidos con GibbsSM secompararon con los de MEME (Multiple Expectation Maximization for MotifElicitation), herramienta de uso corriente para la detección de motivos. Losresultados, que fueron analizados tanto desde un punto de vista computacional comobiológico, fueron satisfactorios La consistencia de los resultados obtenidos sugiereque el modelado de secuencias mediante muestreo Gibbs podría ser efectivo para ladetección de motivos extremos, tal el caso de motivos muy breves subyacentes enconjuntos de secuencias de muy baja identidad.