INVESTIGADORES
PERUCHENA Nelida Maria
congresos y reuniones científicas
Título:
Optimización de redes basadas en grafo para clasificación compuestos químicos según bioactividad
Autor/es:
VILLAFAÑE, ROXANA NOELIA; LUCHI, ADRIANO M.; PERUCHENA, N. M.; ANGELINA, EMILIO
Lugar:
VIRTUAL
Reunión:
Workshop; TREFEMAC 2021 XVIII Taller Regional de Fisica EstadISTICA y Aplicaciones a la Materia Condensada; 2021
Institución organizadora:
FAMAF UNC CONICET
Resumen:
Las redes neuronales basadas en grafo (GNN) han ganado importancia estos _últimos anos debido a su versatilidad para trabajar en datos no estructurados. La complejidad de los datos no estructurados ha tra__do desafíos en el campo del aprendizaje profundo que tradicionalmente se ha de_nido para espacios eucluideos. Al respecto, recientemente han surgido propuestas para lidiar con estos inconvenientes, como son las redes basadas en grafo aumentadas con mecanismos de atención y con gates.El campo de la química, y en particular, de la química computacional no ha sido ajena a estos avances, en los cuales las redes basados en grafos han sido utilizados para predicción de propiedades químicas, diseño molecular, estudio de reacciones, entre otras. En particular, el docking molecular es la técnica más popular para cribado virtual de compuestos, es decir, a partir de una gran base de datos, es capaz de ir seleccionando compuestos en etapas, para tener futuros candidatos a posibles fármacos/drogas. En este sentido, la exactitud obtenida mediante el docking molecular es menor comparado a otras técnicas computacionales (dinámica molecular, QM/MM, etc). Sakai et al. (Sakai, 2021) demostraron recientemente que, basándose solamente en la estructura 2D de compuestos, no sólo se pueden estudiar las propiedades fisico-químicas sino también la bioactividad de compuestos.En este trabajo se presentan los resultados correspondientes a la optimización de una red convolucional basada en grafo (GCN) vanilla y otras redes aumentadas con mecanismos de atención y con gate. El set de datos corresponde a ligandos clasificados como activos e inactivos, con respecto a su poder inhibitorio, frente a la Cruzipaína, una proteína perteneciente a la familia de las cisteín-proteasas. Estos compuestos se encuentran en formato SMILES o formato de texto, a partir del cual se construye el grafo correspondiente que es la entrada para la red neuronal.Los datos pertenecientes a AID1478 presentan un fuerte desbalance de compuestos activos e inactivos, para lo cual en el training set se realiz_o un random undersampling para dar como resultado una proporción de 1:2 activos/inactivos.Durante el entrenamiento de la red, se realizó la optimización de varios hiperparametros, a saber: número de capas convolucionales, tasa de aprendizaje, tamaño del bache, número de épocas. La optimización del algoritmo se detuvo mediante early stopping para evitar sobreajuste. Los resultados obtenidos superan a los obtenidos mediante métodos computacionales mas clásicos como el docking en exactitud (aprox. 50% vs aprox. 80 %) y tiempo de cómputo (días vs min). Referencias:Sakai, M; Nagayasu, K; Shibui, N; Andoh, C; Takayama, K; Shirakawa, H; Kaneko, S. 2021. Prediction of pharmacological activities from chemical structures with graph convolutional neural networks. Scientic