CONICET | Buscador de Institutos y Recursos Humanos

El Filtrado Óptimo Probabilístico (POF) constituye una técnica de limpieza de ruido en el dominio de las características extraídas de la señal de habla continua con el fin de implementar sistemas de Reconocimiento Automático del Habla Continua Robustos (RACSR). El procesamiento generalmente empleado para extraer las características es el de las Derivadas de los coeficientes Cepstrales en escala de Mel (Delta MFCC). POF constituye un mapeo multidimensional lineal por tramos entre el espacio de las características de las señales ruidosas y el de las señales limpias que requiere tener muestras apareadas de las señales con y sin ruido. Las redes neuronales artificiales (ANN) constituyen aproximadores universales de funciones arbitrarias y por lo tanto se convierten en una alternativa interesante para la solución de este problema. Las ANN permiten el mapeo directo entre ambos espacios de manera no lineal lo que constituiría un verdadero Filtro No Lineal. Sin embargo los procedimientos utilizados para entrenarlas son generalmente lentos y muy propensos a caer en mínimos locales. Una característica deseable en este tipo de técnicas es su capacidad de ser entrenados con poca cantidad de datos (con relación al total utilizado para entrenar al sistema completo de reconocimiento). En el presente trabajo se realiza una comparación entre ambos métodos sobre un conjunto de datos tomados del Corpus de habla continua en español LATINO 40, los cuales se mezclaron con ruido blanco obtenido de la base NOISEX en diferentes proporciones. Las señales filtradas mediante ambos métodos se pasaron a través de un reconocedor basado en HMM continuos de Mezclas Gaussianas entrenados con habla limpia de la misma base de datos, para confrontar los niveles de reconocimiento de ambas técnicas y compararlos también con los casos extremos (habla limpia y habla ruidosa).

enviar mensaje