CENEXA   05419
CENTRO DE ENDOCRINOLOGIA EXPERIMENTAL Y APLICADA
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
SEDAR: Detectando y recuperando fallos transitorios en aplicaciones de HPC
Autor/es:
DOLORES REXACHS; ARMANDO DE GIUSTI; DIEGO MONTEZANTI; EMILIO LUQUE; ENZO RUCCI; MARCELO NAIOUF
Lugar:
Río Cuarto, Córdoba
Reunión:
Congreso; CACIC 2019 - XXV Congreso Argentino de Ciencias de la Computación; 2019
Institución organizadora:
Universidad Nacional de Río Cuarto
Resumen:
El manejo de fallos es una preocupación creciente en HPC; en elfuturo, se esperan mayores variedades y tasas de errores, intervalos de detecciónmás largos y fallos silenciosos. Se proyecta que, en sistemas de exa-escala, loserrores ocurran varias veces al día y se propaguen para generar desde caídas deprocesos hasta corrupciones de resultados debidas a fallos no detectados. Eneste trabajo se describe la utilización de SEDAR, una herramienta que permitedetectar fallos transitorios en aplicaciones MPI, y recuperar automáticamentelas ejecuciones, posibilitando su finalización con resultados fiables. Ladetección se basa en replicación de procesamiento y monitorización del envíode mensajes y del cómputo local, mientras que la recuperación se lograutilizando múltiples checkpoints de capa de sistema. El estudio delcomportamiento de SEDAR en presencia de fallos, inyectados en distintosmomentos durante la ejecución, permite evaluar su desempeño y caracterizar eloverhead asociado a su utilización. Las posibilidades de configurar el modo deuso, adaptándolo a los requerimientos de cobertura y máximo overheadpermitido de un sistema particular, hacen de SEDAR una metodología factibley viable para la tolerancia a fallos transitorios en sistemas de HPC.