INVESTIGADORES
VANZETTI Leonardo Sebastian
congresos y reuniones científicas
Título:
Secuenciación y análisis del genoma completo del genotipo argentino de soja convencional “INTA-FICA 5C k/lx” [Glycine max (L.) Merr.]
Autor/es:
FUMERO M. V. ; BERNARDI C.; GARIS S.; LENZI L.; AMADIO A. ; IRAZOQUI M.; CAPPUCCIO J.; SOLDINI D.; VANZETTI L.
Reunión:
Simposio; 2do Simposio de Mejoramiento Genético Vegetal; 2023
Institución organizadora:
INTA
Resumen:
OBJETIVOS: la soja es un paleopoliploide y múltiples fuerzas evolutivas han dado forma a su genoma actual. Esta especie es una de las primeras leguminosas que cuenta con una secuencia genómica completa (~1Gb). En los últimos años, se han publicado múltiples ensamblados genómicos tanto para genotipos cultivados como silvestres, que han permitido comprender mejor la organización del genoma, detectar variabilidad y acelerar los procesos de mejoramiento. Pese a ser la principal oleaginosa producida y el tercer productor mundial de este cultivo, Argentina no posee antecedentes de secuenciación genómica de variedades locales de soja convencional no transgénica. El objetivo de este trabajo fue secuenciar el primer genoma completo del genotipode soja convencional “INTA-FICA 5C k/lx” (bajo inscripción en INASE), que incorpora características biológicas de calidad industrial diferencial, cuyo destino es la producción de harinas especiales y la alimentación de cerdos.MATERIALES Y MÉTODOS: el ADN genómico se extrajo de hojas trifoliadas jóvenes molidas en nitrógeno líquido, utilizando un protocolo basado en CTAB con RNAasa. Se construyeron dos librerías de ADN genómico utilizando el kit SQK-LSK110 (ONT) y cada una fue secuenciada en una flowcell diferente, utilizando un equipo MinION Mk1c (ONT). El procesamiento de los datos comenzó con el basecalling, realizado con Guppy (v3.2.4) en una GPU RTX3070Ti; luego, se quitaron secuencias de adaptadores con Porechop (v0.2.4); las lecturas obtenidas se alinearon con el genoma de referencia Glycine max Williams 82 v2.1 utilizando NGMLR (v0.2.7) y la calidad del mapeo se analizó mediante Samtools (v1.17); finalmente, la determinación de SNPs e INDELsse realizó con BCFtools (v1.17) y la anotación de las mutaciones se realizó utilizando la herramienta online VeP (Variant Effect Predictor), de Ensembl Web Tools. Todos los análisis se realizaron con la configuración predeterminada de cada software.RESULTADOS: producto de las dos secuenciaciones se obtuvieron 4,886,929 lecturas de las cuales el 78.7% fueron mapeadas de manera homogénea a lo largo de los 20 cromosomas de la referencia. Mediante el mapeo se logró una cobertura promedio del 96.7% de la referencia con una profundidad de 5.7 lecturas por base y un tamaño promedio de lecturas de 1,335pb. Para el análisis de variantes se utilizaron solamente aquellas observadas en homocigosis, detectando un total de 1,154,205 mutaciones homogéneamente dispersas en una proporción de 1/1000bp, excepto en los cromosomas 3 y 16 en donde la proporción de mutaciones fue de 2 y 3/1000pb respectivamente. En cuanto a posición genómica de las mutaciones, el 87.7% se ubicaron en regiones intergénicas, mientras que el restante 12.3% (142,362) fueron detectadas sobre genes. Dentro de los genes, las mutaciones intrónicas representaron el 62% y las exónicas el 38%. Ahora bien, tomando comovariable el efecto producido por las mutaciones exónicas, el 24.9% corresponden a mutaciones sinónimas (no producen cambios de aminoácidos), el 35.6% a mutaciones que producen cambios de aminoácidos y finalmente, un 39.6% corresponden a mutaciones que producen la ruptura de la secuencia proteica, ej. frameshift variants. Debido a errores intrínsecos de la metodología empleada y a la baja cobertura de secuencias obtenida (5X), la presencia de INDELs en regiones de homopolímeros estaría sobreestimada, particularmente en regiones de frameshift variants. Actualmente, estamos trabajando en una nueva secuenciación para aumentar la cobertura y minimizar estas desviaciones.CONCLUSIONES: el genoma de la soja convencional INTA-FICA 5C k/lx se convierte en el primer genoma preliminar secuenciado y caracterizado de manera completa de un genotipo argentino de desarrollo público. A partir de este trabajo se desarrollaron capacidades técnicas de secuenciación y bioinformáticas que posibilitarán la llegada de la genómica aplicada al mejoramiento genético en el principal cultivo extensivo del país.