INVESTIGADORES
ANGELINA Emilio Luis
congresos y reuniones científicas
Título:
Optimización de redes basadas en grafo para clasificación de compuestos químicos según bioactividad
Autor/es:
VILLAFAÑE, ROXANA NOELIA; LUCHI, ADRIANO MARTIN; PERUCHENA, NÉLIDA M; ANGELINA EMILIO L.
Reunión:
Taller; XVIII Taller Regional de Física Estadística y Aplicaciones a la Materia Condensada; 2021
Resumen:
Las redes neuronales basadas en grafo (GNN) han ganado importancia estos últimos años debido a su versatilidad para trabajar en datos no estructurados. La complejidad de los datos no estructurados ha traído desafíos en el campo del aprendizaje profundo que tradicionalmente se ha definido para espacios euclídeos (Liao, 2021). Al respecto, recientemente han surgido propuestas para lidiar con estos inconvenientes, como son las redes basadas en grafo aumentadas con mecanismos de atención y con gates.El campo de la química, y en particular, de la química computacional no ha sido ajena a estos avances, en los cuales las redes basados en grafos han sido utilizados para predicción de propiedades químicas (Wieder, 2020; Korolev, 2020), diseño molecular (Mercado, 2021), estudio de reacciones (Coley, 2019), entre otras. En particular, el docking molecular es la técnica más popular para cribado virtual de compuestos, es decir, a partir de una gran base de datos, es capaz de ir seleccionando compuestos en etapas, para tener futuros candidatos a posibles fármacos/drogas. En este sentido, la exactitud obtenida mediante el docking molecular es menor comparado a otras técnicas computacionales (dinámica molecular, QM/MM, etc). Sakai et al. (Sakai, 2021) demostraron recientemente que, basándose solamente en la estructura 2D de compuestos, no sólo se pueden estudiar las propiedades físico-químicas sino también la bioactividad de compuestos. En este trabajo se presentan los resultados correspondientes a la optimización de una red convolucional basada en grafo (GCN) vanilla y otras redes aumentadas con mecanismos de atención y con gates. El set de datos corresponde a ligandos clasificados como activos e inactivos, con respecto a su poder inhibitorio, frente a la Cruzipaína, una proteína perteneciente a la familia de las cisteín-proteasas. Estos compuestos se encuentran en formato SMILES o formato de texto, a partir del cual se construye el grafo correspondiente que es la entrada para el modelo de aprendizaje profundo. Los datos pertenecientes a AID1478 presentan un fuerte desbalance de compuestos activos e inactivos, para lo cual en el training set se realizó un random undersampling para dar como resultado una proporción de 1:2 activos/inactivos. Durante el entrenamiento de la red, se realizó la optimización de varios hiperparámetros, a saber: número de capas convolucionales, tasa de aprendizaje, tamaño del bache, número de épocas. La optimización del algoritmo se detuvo mediante early stopping para evitar sobreajuste del modelo. Los resultados obtenidos superan a los obtenidos mediante métodos computacionales más clásicos como el docking en exactitud (~50% accuracy vs ~80% accuracy) y tiempo de cómputo (días vs min).