CIFASIS   20631
CENTRO INTERNACIONAL FRANCO ARGENTINO DE CIENCIAS DE LA INFORMACION Y DE SISTEMAS
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Selección Precisa de Genes mediante Consenso SVM-RFE
Autor/es:
P. BULACIO; E. TAPIA; L. ANGELONE
Lugar:
Rosario
Reunión:
Jornada; V Jornadas de Ciencia y Tecnología - 2011; 2011
Institución organizadora:
Universidad Nacional de Rosario
Resumen:
La selección de subconjuntos de genes informativos (biológicamente relevantes) sobre conjuntos de datos de microarreglos es un punto crítico en vista de alcanzar clasificaciones correctas. La calidad de la selección puede basarse en la valoración de dos características principales del proceso: la estabilidad, que representa la repetitividad de genes seleccionados en distintos procesos de selección, y la cobertura, que es definida como la relación entre los genes informativos seleccionados vs. los genes informativos totales. Dentro de los diversos métodos de selección de genes propuestos, el algoritmo SVM-RFE es uno de los que arroja mejores resultados. Sin embargo, la determinación de la política de filtrado no es trivial: un filtrado fino conlleva a pequeños subconjuntos de genes informativos, pero inestables, con poca cobertura y a un alto costo computacional; por otro lado, un filtrado más grueso tiende a seleccionar un conjunto más grande de genes también inestables, pero con valores de cobertura y precisión aceptables a un costo computacional razonable. Intentando mejorar los problemas arriba mencionados, se propone el método de consenso Sparse-S (Sparse and Stable Gene Consensus SVM-RFE) cuyo objetivo es seleccionar conjuntos pequeños (dispersos) y estables de genes informativos con niveles aceptables de cobertura a un costo computacional razonable. La dispersión (sparseness) es alcanzada a partir del la aplicación del operador AND en los diversos conjuntos de genes seleccionados obtenidos con diferentes políticas de filtrado grueso. Posteriormente, sobre estos conjuntos es evaluada la restricción de estabilidad mediante la medición de la frecuencia de selección de genes sobre N particiones de datos (e.g., N=10 en 10-Fold CV). Como resultado se obtienen N conjuntos de genes N-estables. Por último, el conjunto óptimo final de genes es alcanzado a partir de la aplicación de una función objetivo para cada conjunto N-estable. En nuestro caso, la función objetivo minimiza el error de entrenamiento.