CONICET | Buscador de Institutos y Recursos Humanos

La desgravación de audios es una de las primeras tareas en la creación de corpus para el entrenamiento y prueba de sistemas de reconocimiento de habla. Se debe transcribir literalmente lo hablado y además marcar todos los eventos acústicos. También puede ser de interés indicar el cambio de locutor, superposiciones de locutores, la presencia de ruidos, entre otros. Existen herramientas gráficas que permite leer, escuchar, ver, editar y etiquetar audios de locuciones. Este tipo de herramientas presentan varios inconvenientes de uso, por ejemplo: si los audios son de gran longitud el programa se enlentece y/o dejan de funcionar; es necesario marcar el inicio y fin de cada turno de habla antes de desgrabar; es engorroso moverse entre los distintos campos de etiquetado; entre otros problemas detectados. Una alternativa es segmentar los audios antes de su desgrabación manual. El criterio de segmentación puede tener como motivación: pausas, excesivo ruido, por tiempo, por eventos acústicos, ente otros. Una vez realizada la segmentación, los audios resultantes pueden ser guardados en archivos independientes, facilitando su manipulación y desgrabación. En este trabajo nos propusimos segmentar audios de radio y televisión para su posterior desgravación y etiquetado de eventos acústicos. Para ello se crearon dos herramientas: uno que permite segmentar los audios, y otra que permite su desgrabación y etiquetado.