IBR   13079
INSTITUTO DE BIOLOGIA MOLECULAR Y CELULAR DE ROSARIO
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Clasificación de Secuencias Codificantes y no codificantes en genomas de eucariotas
Autor/es:
ESTEBAN SERRA; LUIS ESTEBAN; LEONARDO ORNELLA; ELIZABETH TAPIA
Lugar:
Buenos Aires
Reunión:
Jornada; II Jornadas Iberoamericanas de Bioinformática; 2006
Institución organizadora:
RIBIO
Resumen:
Uno de los primeros objetivos una vez completado el ensamblado de un genoma completo, es la predicción de las secuencias codificantes para proteínas (CDSs). Para esto se han desarrollado métodos intrínsecos y extrínsecos. Los métodos intrínsecos se basan en analizar información característica de las secuencias codificantes, sin tener en cuenta la posible similitud que tenga la secuencia con genes de otro origen (métodos extrínsecos). GLIMMER, basado en la utilización de Modelos Hidden Harkov interpolados, es el programa más utilizado para el análisis de genomas procarióticos, con una precisión reportada, para algunos genomas, cercana al 99 %. La detección de genes en genomas eucarióticos presenta una complejidad mayor y Genscan y HMMgene, han sido reportados como los programas disponibles con mejor desempeño, con sensibilidad de 95 % y 93 % y especificidad de 90 % y 93 % respectivamente. Si bien todos estos programas poseen parámetros para ajustar el funcionamiento, suelen utilizarse con los valores determinados como óptimos por los desarrolladores. Además, es común que se utilicen más de un programa para el análisis de un genoma dado. En el presente trabajo se explora el problema de la determinación de regiones codificantes utilizando algoritmos de Data Mining. El genoma de Trypanosoma cruzi CL. Brener posee 25041 ORFs, de los cuales solo un 50.8 % de los ORFs  poseen anotación con función asignada en base a similitud con proteinas caracterizadas o dominios de función conocida. Además, debido a que el genoma no se encuentra completamente ensamblado, existen  ORFs parciales, no anotados. Con el objetivo de seleccionar las secuencias con alta probabilidad de ser codificantes se estableció un algoritmo de clasificación en base a características intrinsecas de secuencias codificantes y no codificantes conocidas. Como grupo de entrenamiento se utilizaron 450 secuencias codificantes y 540 no codificantes bona fide obtenidas de GeneBank a partir de anotaciones generadas por expertos, depuradas, editadas y verificadas mediante un script Perl. Utilizando el entorno MathLab cada secuencia fue convertida en un número fijo atributos, (frecuencia de aparición de palabras de nucleótidos de longitudes 2, 3, 4, 5 y 6) más una etiqueta de clase binaria. Para evitar el sobreajuste los atributos fueron seleccionados mediante un filtro S2N (Signal to Noise) adaptado del análisis de datos de microarrays. Sobre estos datos se ensayaron distintos algoritmos de clasificación (Naïve Bayes, Decision Tree, AdaBoost Decision Stumps, y Suported Vector Machine (SVM)) disponibles en las librerias Weka de aprendizaje artificial. El desempeño de los clasificadores fue evaluado mediante el test de validación cruzada de Motecarlo (50 particiones 2:1 al azar). Los mejores resultados fueron obtenidos utilizando los clasificadores AdaBoost decision Stump, w = 6 con conservación del marco de lectura, filtro q = 0,6 (precisión = 97,3%, sensibilidad = 96,9%  kappa = 95,4%) y SVM (kernel función Radial, G = 1) w=3 con conservación del marco de lectura, filtro q = 0,6 (precisión = 94,8%, sensibilidad = 93,8  kappa = 89,6). Valores aún mas altos (precisión = 98,3%, sensibilidad = 98,5  kappa = 96,3 para AdaBoost) fueron obtenidos cuando se utilizaron datos de secuencias codificantes e intergénicas. Además, AdaBoost fue el clasificador que se mostró menos sensible al filtrado de los datos. Estos valores fueron significativamente superiores a los reportados para el programa AutoMagi utilizado en el proyecto genoma de T. cruzi. El mejor desempeño de la aproximación clasificatoria puede deberse a los esfuerzos realizados en explorar distintos juegos de datos generados a partir de las secuencias, así como en la exploración de los parámetros de cada uno de los clasificadores. Si bien esto significa un mayor costo computacional, a nuestro criterio se justifica par el análisis de genomas con características particulares como los de los tripanosomátidos. Ambos clasificadores fueron utilizados para analizar 25041 CDSs del proyecto genoma de T. cruzi. De las secuencias clasificadas como no codificantes más del 70 % correspondieron a secuencias asignadas como proteínas hipotéticas, proteínas hipotéticas conservadas y proteínas putativas por los curadores del proyecto genoma. En paralelo, los clasificadores entrenados con las secuencias de T. cruzi fueron utilizados para clasificar un juego de secuencias de Trypanosoma brucei y Leishmania major bona fide obtenidas de GeneBank a partir de anotaciones generadas por expertos, depuradas, editadas y verificadas.  Los resultados obtenidos mostraron errores de alrededor del 7% tanto para secuencias codificantes como no codificantes de T. brucei. Sorprendentemente, la precisión fue superior al 99 % para secuencias codificantes  y cercana al 30 % para secuencias no codificantes de  L. major, lo cual sugiere relaciones evolutivas diferentes para secuencias codificantes e intergénicas entre los tres organismos.