INVESTIGADORES
PASTORE Juan Ignacio
congresos y reuniones científicas
Título:
Combinación de variantes de clustering jerárquico para la detección de grupos significativos en función de índice Silhoutte
Autor/es:
INTI PAGNUCO; JUAN IGNACIO PASTORE; GUILLERMO ABRAS; MARCEL BRUN; VIRGINIA BALLARIN
Lugar:
Ciudad Autónoma de Buenos Aires
Reunión:
Workshop; Workshop Internacional Programa Raíces; 2015
Institución organizadora:
Facultad de Ciencias Exactas y Naturales (FCEN) de la Universidad de Buenos Aires
Resumen:
La selección de genes es una tarea importante en el área de la bioinformática, donde los genes significativos son agrupados utilizando algún criterio de significación. Esta tarea se realiza generalmente por algoritmo de agrupamiento, los cuales proporcionan una visión sobre la posible co-regulación entre los genes. Estas técnicas son sub-óptimas, pues no recorren todos los posibles subconjuntos. Esto se debe a que la cantidad de subconjuntos crece en forma combinatoria con la cantidad de datos. Por ejemplo para un conjunto de 2000 genes, la cantidad de subconjuntos a evaluar es de 22000. Por otro lado, dichas técnicas generan, usualmente, conjuntos muy grandes, dependiendo de la cantidad de grupos, definidos en forma heurística, e ignora grupos muy pequeños que pueden ser potenciales candidatos.Para solucionar este problema se planteó previamente una búsqueda exhaustiva en el árbol de agrupación del algoritmo jerárquico, donde la selección de los grupos candidatos está definida por el índice de compacidad y separación Silhoutte. Basado en los resultados positivos obtenidos en [1], en este trabajo analizamos que variantes del algoritmo de agrupamiento jerárquico (Complete, Average y Single, utilizando distancia euclidiana y correlación) encuentra mayor cantidad de subconjuntos óptimos. Adicionalmente proponemos un nuevo enfoque basado en la combinación de todas las variantes.El análisis se realizo en dos partes. Dado un conjunto de datos simulados, por un lado se calculó el índice Silhouette para todos los posibles subconjuntos realizando búsqueda exhaustiva, obteniéndose el Gold Standard, y por otro lado se aplicaron las diferentes variantes delagrupamiento jerárquico, usando el índice Silhoutte para seleccionar los mejores subconjuntos. Se evaluaron los resultados analizando, para cada variante, cuantos subconjuntos de alto índice fueron detectados.En el análisis se definieron 4 conjuntos sintéticos de datos, que consistían en matrices de 10x30.Cada fila era una variable (gen) con 30 medidas asociados cada una (muestras). El modelo básico de cada variable consiste en una distribución Gaussiana con matriz de co-varianza ajustada para obtener diferentes niveles de correlación entre las variables. El primer caso tenia alta correlación entre variables 1 y 2, el segundo caso alta correlación entre variables 1 y 2; 3 y 4; y entre 7 y 8. En el tercer caso la variable 3 no estaba correlacionada con ninguna. En el cuarto caso había dos bloques no correlacionados. La tabla 1.a resume los resultados obtenidos, como valor promedio de Silhouette de los grupos detectados. A mayor valor promedio, mayor cantidad de grupos de alto valor (del gold standard) fueron detectados. La tabla 1.b muestra el resultado de analizar la posición (en el listado gold standard) de los grupos detectados.Como conclusión de este análisis se propuso una nueva combinación de variantes de agrupamiento jerárquico el cual obtuvo mejores resultados en la detección de grupos con alto Silhoutte.