IICAR   25568
INSTITUTO DE INVESTIGACIONES EN CIENCIAS AGRARIAS DE ROSARIO
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Herramientas bioinformáticas para el análisis de secuencias en la búsqueda de genes candidatos
Autor/es:
GREEN, GISELA YAEL; RODRÍGUEZ, GUSTAVO RUBÉN; POZZI, FLORENCIA; FELITTI, SILVINA
Lugar:
Rosario, Santa Fe
Reunión:
Congreso; XVIII Congreso y XXXVI Reunión Anual de la Sociedad de Biología de Rosario; 2016
Institución organizadora:
Sociedad de Biología de Rosario
Resumen:
El análisis de grandes bases de datos moleculares para la búsqueda e identificación de genes candidatos constituye uno de los problemas actuales del área de la biología molecular vegetal. Una posible solución es el uso del lenguaje de programación R, un programa de código abierto y uso gratuito que permite el análisis de datos de forma automatizada. Sin embargo, la elaboración de un algoritmo en lenguaje R requiere de una exhaustiva búsqueda bibliográfica y conocimiento de las funciones involucradas. El objetivo de este trabajo es la elaboración de dos herramientas bioinformáticas destinadas al análisis de secuencias para la búsqueda e identificación de genes candidatos. A continuación se describen los problemas a ser automatizados: 1) Eliminar de n fragmentos secuenciados las bases nucleotídicas correspondientes a los cebadores utilizados para la amplificación por PCR. Posteriormente, alinear cada uno de los fragmentos contra una base de datos en búsqueda del mayor porcentaje de homología respecto de otras especies y la identidad de la secuencia; 2) Obtener un segmento determinado de una secuencia de ADN de mayor longitud. Además, realizar un análisis de expresión diferencial de genes codificados en dicho segmento. En ambos casos se trabajó con archivos FASTA, que corresponde a un formato basado en texto utilizado para representar secuencias de ácidos nucleicos o péptidos. La simplicidad de este formato hace fácil el manipular y analizar secuencias haciendo uso de herramientas de procesamiento de textos y lenguajes de programación. Las tareas requeridas para solucionar ambos problemas se automatizaron mediante la construcción de algoritmos en lenguaje de programación R. Como resultado, la primera herramienta permite la eliminación de las bases correspondientes a los cebadores. Este proceso es posible vinculando un archivo FASTA conteniendo n fragmentos secuenciados con otro conteniendo las secuencias de los cebadores a ser identificados y eliminados. El mismo comando permite generar un nuevo documento con secuencias ?limpias? y contrastarlo a bases de datos disponibles en la web para realizar el alineamiento correspondiente dentro del entorno de R. La segunda herramienta desarrollada permite, a través de ciertos parámetros establecidos, la localización y extracción de un segmento a partir de una secuencia de mayor longitud. La sub-secuencia generada se utiliza para conocer los genes codificados en dicho segmento mediante alineamiento fuera del entorno de R. A partir de la vinculación de archivos, este comando permite filtrar de un documento conteniendo las lecturas de miles de genes (transcriptoma), solo aquellos de interés. A su vez, realiza un análisis de expresión diferencial sobre los genes seleccionados y recopila, de forma automática, los resultados en un nuevo archivo que almacena en una carpeta definida. Como conclusión, la automatización del análisis de secuencias permite el ahorro de tiempo y esfuerzo y la generación de datos con un porcentaje menor de errores técnicos en solo un click. A la vez, su generalización y simplicidad hacen que estas herramientas sean aplicables a las tareas llevadas a cabo por otros grupos de investigación.