TECNOLOGÍA

Te estoy hablando a vos

Un investigador del Consejo trabaja en un sistema de reconocimiento de habla que optimizará la relación con la tecnología.


Hablar: esa capacidad que caracteriza al ser humano, esa acción habitual que permite la comunicación, ya no es una virtud estrictamente de las personas, sino que se hizo extensiva al mundo de las computadoras. Actualmente ya es posible decirle al celular que llame a alguien, o escuchar el saldo de la cuenta bancaria reproducido por un aparato, pero los sistemas para reconocer voz siguen siendo desarrollados en una búsqueda que persigue perfeccionarlos.

Los primeros intentos de crear máquinas que pudieran imitar la capacidad de comunicación de los humanos surgieron en la segunda mitad del siglo XVIII y apuntaban a conseguir interactuar de manera efectiva con ellos. Más tarde se entendió que un paso fundamental para conseguir la comprensión del habla era su reconocimiento.

Para Jorge Gurlekian, investigador principal del CONICET en Laboratorio de de Investigaciones Sensoriales del Instituto de Inmunología, Genética y Metabolismo (INIGEM, CONICET-UBA), quien con un grupo interdisciplinario se encuentra desarrollando un sistema de reconocimiento de voz, aún queda mucha tarea por realizar ya que las implicancias del habla, aunque parezcan simples en el diálogo diario, representan todo un desafío para la comprensión de las máquinas.

El reconocimiento automático del habla (RAH) o reconocimiento automático de voz es una disciplina de la inteligencia artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y computadoras. “A diario empleamos el lenguaje oral casi sin percatarnos de la cantidad y la complejidad de los procesos involucrados en algo tan natural como mantener una conversación. Sin embargo, muchos de esos procesos plantean tremendas dificultades para los sistemas informáticos”, detalla el investigador, haciendo referencia a una gran limitación que están intentando sortear, pues el discurso no está compuesto solo de un qué, sino de un cómo: en lo silencios, las pausas y las entonaciones está la clave de una buena comunicación.

Por ello, Gurlekian enfatiza que no sólo se transmite información con las palabras, sino que la manera en que se enuncia una oración, la entonación que tenga, entre otros factores, que hacen rico al discurso, tienden a confundir a la computadora. “Cuando hablamos, el primer desafío es identificar lo que es voz y lo que es ruido, mientras que para una maquina no es fácil saber en que sonidos concentrarse. Cuando conocemos a alguien nos adaptamos a su timbre, tono y volumen automáticamente sin tener que pedirle a la persona que hable durante algunos minutos, y qué decir del hecho de que a la computadora le resulta difícil distinguir entre frases parecidas”.

De esta manera queda planteado un desafío enorme: crear un sistema que reconozca el habla de cualquier ser humano, teniendo en cuenta lo increíblemente bueno que es el hombre para hacerlo.

 

La PC sabe lo que le digo

Gurlekian trabaja usando horas de grabaciones de la radio y de la televisión para entrenar un sistema automático que aprenda palabras en las condiciones reales de su emisión. Ese aprendizaje se da mediante la conformación de modelos acústicos de cada fonema y también de acuerdo al fonema anterior y posterior. “La estructura del lenguaje queda representada por la secuencia más probable de palabras en el discurso. Esta información, junto con un diccionario de pronunciaciones posibles de cada palabra -por ejemplo la palabra ciudad se puede decir ciudad o ciudá -, conforman el modelo de lenguaje”, detalla el investigador. Además –agrega- “la base de datos que se genera contempla las variables fonéticas, y las variantes dialectales prosódicas producida en cada región del país, la entonación, los ‘cantitos’, el acento y el ritmo”.

De esta manera, el sistema de reconocimiento de voz usa un proceso de clasificación de ciertos patrones que almacena en diccionarios. Si al dictar un texto las palabras usadas no están en su vocabulario, el software buscará otras fonéticamente parecidas que sí estén. Esto da lugar a los consabidos errores y pone de manifiesto la necesidad de entrenar el programa para alcanzar mayor precisión en el reconocimiento.

Estos sistemas están basados en la creación de modelos probabilísticos para cada unidad acústica del lenguaje, modelos estadísticos de las palabras que podrá utilizar el usuario y modelos de pronunciaciones que indican cómo se relacionan las unidades acústicas para conformar palabras. El desempeño de los reconocedores depende de la calidad de las grabaciones que se utilicen para llevar a cabo la tarea, al tipo de habla y a los rasgos que presente cada locutor. Los porcentajes de reconocimiento obtenidos en el laboratorio utilizando locutores profesionales y un ambiente especial para realizar las grabaciones superan el 97 por ciento”, aclara Gurlekian.

El reconocimiento de habla es una tecnología que ofrece muchas posibles aplicaciones, como el control de dispositivos, el dictado de voz a texto, la búsqueda de términos y expresiones dentro de un archivo de sonido. Además puede facilitar la comunicación de personas con discapacidades e incluso desarrollar medidas de seguridad basadas en la voz, entre un incalculable horizonte de posibilidades.

  • Por Jimena Naser
  • Sobre investigación:
  • Jorge Gurlekian. Investigador principal. INIGEM.
  • Evin Diego. Investigador adjunto. INIGEM.
  • Humberto Torres. Investigador asistente. INIGEM.
  • Cossio Christian. Becario. INIGEM.
  • Miguel Martínez. UBA.
  • Pedro Univaso. UBA