IMAM   24519
INSTITUTO DE MATERIALES DE MISIONES
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
CLASIFICACIÓN AUTOMÁTICA DE ESTUDIOS EPIDEMIOLÓGICOS RE- FERENTES A DISTINTOS TIPOS DE CÁNCER UTILIZANDO TÉCNICAS DE MINERÍA DE TEXTO Y META?ESTIMADORES
Autor/es:
FABIÁN FAVRET; KARINA B. ACOSTA; ZAMUDIO, E.; MÓNICA MOUNIER
Lugar:
Posadas
Reunión:
Jornada; Jornadas Científico Tecnologícas de la Universidad Nacional de Misiones; 2018
Institución organizadora:
Universidad Nacional de Misiones
Resumen:
En la última década se ha visto un enorme crecimiento en la cantidad de datos biomédicos experi-mentales y computacionales, específicamente en las áreas de genómica y proteómica. Este creci-miento ha aumentado el número de publicaciones biomédicas referentes a hallazgos en estudiosepidemiológicos de tipo caso?control, que reflejan la asociación de polimorfismos de nucleótidossimples (SNPs) y su asociación a distintos tipos de cáncer. Debido a ello, hay un gran interés porparte de la comunidad científica en herramientas de minería para ayudar a clasificar la abundantedocumentación disponible, a fin de encontrar datos relevantes para tareas de análisis específicas.Los SNPs son variaciones de la secuencia de ácido desoxirribonucleico (ADN) que se producen cuan-do se altera un solo nucleótido (A, T, C o G) en el genoma humano. La minería de texto (MT) procesala información no estructurada y extrae índices numéricos desde el texto, posibilitando su procesa-miento por algoritmos de minería de datos. El objetivo principal ha sido el desarrollo e implemen-tación de una herramienta bioinformática de clasificación automática de estudios epidemiológicosde tipo caso?control referentes a SNPs relacionados a distintos tipos de cáncer utilizando técnicasde MT, a partir de sus metadatos. Para el presente trabajo ha sido adaptada la metodología CRISP?DM, cuyas etapas son: recuperación y pre?procesamiento de metadatos, representación de datosy descubrimiento del conocimiento. Fue elaborado un dataset a partir de los metadatos de 198artículos científicos (disponibles en el National Center for Biotechnology Information) elegidos alea-toriamente por el experto referente a algún tipo de cáncer, habiendo extraído frases de clasificación,posibilitando su división en las siguientes clases: ?Asociados? (169 artículos) y ?No Asociados? (29artículos). Un problema intrínseco en este tipo de estudios es el desbalanceo de clases, dado que lamayoría de los mismos reflejan asociaciones de los SNPs a las enfermedades y no así lo contrario.La herramienta desarrollada consta de los siguientes módulos: consulta, recuperación, pre?proce-samiento, clasificación, visualización y retroalimentación. Para su implementación fueron utilizadaslas siguientes tecnologías: Biopython, E?utilities, genenames.org Rest Web Service, y Django para eldesarrollo de la interfaz de consulta web. Para la representación de los metadatos seleccionados delos artículos fue utilizado el Term Frequency ? Inverse Document Frequency (TF?IDF) de los unigra-mas de los mismos. Para la clasificación fue utilizado el meta?estimador Bagging para tres técnicasde clasificación: Support Vector Machine (SVM), K?Nearest Neighbors (KNN) y Naives Bayes (NB),utilizando el 60 % del dataset para entrenamiento y el 40 % restante para validación, donde cadameta?estimador fue entrenado y validado sobre el mismo subconjunto de datos para comparar losresultados. Los resultados obtenidos fueron superiores para el meta?estimador Bagging con NB, al-canzando una exactitud del 92%, una precisión del 95%, y una cobertura del 92%, obtenidas a partirde la matriz de confusión resultante del subconjunto de validación conformado por los metadatos de79 artículos. Así también, el mismo ha alcanzado un F1?Score promedio de 93% (?Asociados?: 96%? ?No Asociados?: 75%), el cual es superior a los otros meta?estimadores para la clase minoritaria.PALABRAS CLAVE: Bioinformática ? Minería de Textos ? Meta ? Estimadores.