PROGRAMA NACIONAL CIENCIA Y JUSTICIA
Expertos del CONICET participaron en las pericias de voz del caso Candela
Se conoció el fallo de la Justicia. Cómo el trabajo científico colaboró para resolver el caso.
Hace pocas semanas el Tribunal Oral en lo Criminal N° 3 (TOC) de Morón condenó a prisión perpetua a dos de los acusados por la privación ilegal de la libertad y el homicidio de Candela Rodríguez, ocurrido en agosto de 2011, y condenó a un tercer sospechoso a cuatro años de cárcel por considerarlo partícipe secundario de los hechos. Para llegar al fallo, la Justicia fue asesorada por un grupo de científicos del Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET), que colaboran con el Programa Ciencia y Justicia, y realizaron las pericias de voz de las llamadas extorsivas que recibió la familia de Candela mientras los captores la tuvieron cautiva, lo que permitió probar que los llamados pertenecían a los acusados.
Cabe recordar que, tal como dieron a conocer los medios, el 22 de agosto de 2011 Candela, de 11 años, “fue sustraída por tres sujetos en una camioneta Ford EcoSport negra”, la mantuvieron cautiva algunos días en la localidad de San Martín y luego estuvo en Villa Tesei, partido de Hurlingham, lapso en el que hicieron llamados extorsivos. Finalmente, el cuerpo de la niña apareció al costado de la colectora de la Autopista del Oeste el 31 de agosto de 2011.
Sobre esos llamados, la Justicia pidió pericias multidisciplinarias, y las analizó por el Sistema Forensia, “un sistema de identificación de voz que realizaron dos ex becarios de CONICET en nuestro laboratorio, y se llama Forensia”, expresó el investigador Jorge Gurlekian, del Laboratorio de Investigaciones Sensoriales (LIS) -miembro del Instituto de Inmunología, Genética y Metabolismo (INIGEM, CONICET-UBA) y especialista en reconocimiento del habla.
El fallo
Tal como se refleja en el fallo, con posterioridad al hallazgo del cuerpo sin vida de Candela, y “ya existiendo en la investigación varios masculinos sindicados como posibles partícipes del hecho, se dispuso la realización de una pericia acústica”. El análisis pericial constó de tres fases diferenciadas: una perceptual (de cierto carácter subjetivo al ser realizado por un profesional fonoaudiólogo), una espectrográfica y una estadística (estas últimas netamente objetivas ya que son realizadas por un software especialmente diseñado para la tarea). Cada una de estas etapas de análisis arrojaría correspondencia entre el material indubitado -voz de los imputados- y el dubitado -la voz del llamado-.
Extrajeron de la muestra de voz “toda señal innecesaria para el cotejo, como ser ruidos ambientales, silencios o segmentos donde intervienen otros hablantes, de tal forma de aislar la señal donde se encuentra la voz del individuo sobre el cual recae el interrogante pericial. En este caso se obtuvo un término de 11 segundos de duración”.
Establecida la aptitud de la pista, se realizó su análisis perceptual “tendiente a establecer las características del habla, su ritmo, velocidad, tipo y calidad vocal, la existencia o no de una patología. Como también qué tipo de teléfono se utilizó para realizar la llamada, horario de la misma y estado anímico de su autor, todo lo cual permitió orientar a los peritos en la toma de las distintas planas de voz para el cotejo”.
Y tal como explica el fallo, “obtenidas las planas de voz, el paso siguiente fue su análisis perceptual (…) y su consecuente evaluación de correspondencia positiva o negativa. Siguió a continuación el análisis espectrográfico mediante el programa Anagraf Forense, para lo cual se digitalizaron las señales, teniendo en cuenta el rango de frecuencia seleccionado y se analizaron las vocales -a excepción de la “u”-, arrojando para cada sonido un valor de formante –F0, F1, F2 y F3- y una vez más se estableció la correspondencia o no entre las señales indubitadas y la dubitada. Por último, los valores obtenidos fueron ingresados al test estadístico, a través del programa Spread, que forma parte del paquete Idem, con un soporte de voces italiano. Este programa utiliza el modelo estadístico CHI Cuadrado, que acepta o rechaza la muestra de acuerdo al porcentaje de correspondencia, el cual es de 99%. En cuanto a los diferentes software existentes -italiano, ruso o del Conicet- en tanto la voz no es independiente al idioma, sí lo es el habla, razón por la cual resulta indiferente el idioma en el cual se encuentra cargada la base estadística”, explicaron.
De este modo concluyeron, unánimemente, en dictaminar que “DEL ESTUDIO REALIZADO SOBRE LA VOZ EXTORSIVA IDENTIFICADA COMO “VOZEXTORDC1″ Y LA VOZ INDUBITADA DEL IMPUTADO LEONARDO DANIEL JARA NAVARRETE, DNI 26.110.650, SURGE LA CORRESPONDENCIA ENTRE AMBAS VOCES”.
Sin embargo, indica el fallo, no culminó con ello la actividad destinada a establecer la identidad del autor de la “famosa llamada”, sino que, ya en el marco del debate, “y en aras del respeto a la amplitud de la prueba, se realizó una nueva pericia por ante la Sección Cotejo de Voz y Habla de la Asesoría Pericial de La Plata. Se utilizó el audio de las declaraciones que prestó el imputado Jara en la audiencia con más la plana de voz que se tomara en la sede de la Asesoría, conformándose un término de 150 segundos de duración, en tanto como material dubitado se utilizó el audio de la llamada, extrayendo una pista de 12 segundos de duración”.
Se evaluó: el nivel de la voz -grave o agudo-, la intensidad, la resonancia -voz nasal o laríngea-, la articulación de las vocales, de las consonantes, la velocidad, la presencia o no de muletillas -en el caso no se encontraron- y la melodía. Respecto a ésta última característica coincidieron los peritos en destacar que el imputado posee una melodía, una cadencia especial que también fue hallada en la muestra dubitada. Se analizaron las dos muestras (dubitada e indubitada) y a cada uno de estos parámetros se le asignó una puntuación por semejanza dentro de la escala del 0 al 10, donde 0 es nada de semejanza. En ambos casos llegaron a conclusiones similares -8,7 y 8,6-, estando dentro del rango de valores que Holien clasifica como “medio alto”, pudiendo inferir que ambas pistas serían del mismo hablante.
“Continuando con la diligencia, una vez finalizada esta etapa, ambos términos -dubitado e indubitado- fueron analizados por el Sistema Forensia. Explico Univaso que se trata de un programa creado por el Conicet, que evalúa la similitud que existe entre las señales que ingresan al sistema. Para ello utiliza como base de datos la muestra de miles de personas de todo el mundo. El sistema I-vector analiza los parámetros vocales y los representa con un vector en el espacio, multidimensional. Así Forensia mide la distancia de las dos señales y si fueron realizadas por la misma persona, asignando un puntaje negativo -las dos emisiones son diferentes- o positivo -similitud de hablante-. A mayor puntaje, mayor similitud”, se indica en el fallo.
Y agrega: “Inicialmente es necesario calibrar el sistema, en el caso se lo preparó para un canal telefónico -por la muestra dubitada- y un canal por micrófono -por la indubitada-, arrojando la comparación una escala que va del valor + 3,5 en caso de comparar las mismas voces y de -3,5 si son diferentes. Seguidamente, se añadieron las señales (dubitada e indubitada) y el resultado dio + 2,98, lo que significa que es 959 veces más probable que ambas pistas hayan sido producto de la misma persona”. Al respecto Martín manifestó que a Jara, al tiempo de tomarle la plana de voz se le hizo leer el texto de la “llamada extorsiva”, incluido los signos de puntuación, respetando las pausas y signos dados, no siendo, en definitiva, una manifestación espontánea del imputado sino la “imitación” de la llamada en cuestión. En respuesta a ello, explicó Univaso que Forensia analiza fonemas, tomando en cuenta solo el tracto vocal, sin importar lo que se dice en cada frase. Agregó la Lic. Peña que, oportunamente, tantos ellas como el perito Martín decidieron de común acuerdo las planas que utilizarían para el cotejo, entre las que se escogió la del mensaje leído y ciertos pasajes de la declaración del imputado en la audiencia, no habiendo objetado el perito nada al respecto.
“En definitiva –termina el fallo-, las conclusiones a las que arribaran los oídos en la audiencia resultan idénticas a aquellas brindadas por los expertos de Gendarmería Nacional”.
Para conocer más detalles del Programa Ciencia y Justicia haga click aquí.
Sobre pericias del habla
Tal como explicó el Dr. Gurlekian sobre el sistema de reconocimiento de voz: “Los factores que permiten identificar a una persona a partir del registro de su voz son cientos. No solo importa cómo se dice, sino con qué palabras. La historia de una persona –su formación, su cultura, su vida familiar- se trasluce muchísimo en el lenguaje. Otro aspecto a tener en cuenta es el estilo según con quién se hable: con familiares, con amigos o en una clase con alumnos. Y el estado de salud: cansada, resfriada, todo eso afecta la voz”.
Es decir que existen infinitos modos de habla y cuestiones que la determinan: la región en la que se nace, la edad, la contextura física, el género, y también las características físicas del lugar donde hablamos, que también distorsiona nuestra voz: el ambiente, el ruido, la música. O el medio a través del cual nos comunicamos: mientras en la vida utilizamos unos ocho mil ciclos de frecuencias graves a agudas, por teléfono solo se captan tres mil. Durante varios años, la ciencia creyó que era imposible reconocer una voz dada la variabilidad de la voz del mismo hablante. “En los 80, la única prueba posible para reconocer una voz registrada en una escena del crimen era la llamada `perceptual`: se tenía una grabación –la evidencia- y se buscaba un panel de diez personas con buen oído –se sigue usando ahora el mismo método, similar al juicio por jurados de Estados Unidos-. Se emplean de cinco a diez personas generalmente fonoaudiólogas con entrenamiento musical. Se les da una planilla con atributos -tonalidad, aguda o grave-, intensidad -habla fuerte o débil-, características de la voz -nasal, no nasal, rítmica, aleatoria-. Son quince o veinte rasgos clasificados, con una escala cada rasgo de 0 a 5. Los jurados deben escuchar la voz grabada –una frase- y la frase de cada sospechoso. Y tienen que puntuar. Si es muy parecida, nada parecida, así con todas las características o atributos. Se suman las respuestas de todos, para cada atributo, y se hace un promedio de identificación”, explica Gurlekian.
Años después, lo que siguió fue un derrotero de avances hasta llegar a nuevas herramientas de clasificacion. “Todos los años –recuerda Gurlekian- se reunían científicos del área de la comunicación verbal de renombre internacional para ver cómo lo podían mejorar”. Los investigadores, entonces, comenzaron a desarrollar bases de datos de voces: registros grabados de distintos lugares del mundo, para tener referencias y usar en técnicas probabilísticas. Así, se comenzó a pensar técnicas para compensar la variabilidad del hablante.
Hoy, en el mundo se utilizan tres métodos para realizar pericias judiciales sobre registros de voces en escenas del crimen: uno sigue siendo el perceptual –también conocido como “subjetivo auditivo”- , con un jurado de voces; otro es el método semiautomático donde se miden rasgos distintivos de la voz en forma manual –como los formantes-, con una base de voces en un software que mide las características de una voz a través de métodos estadísticos; y un tercer método, el automático, que se desarrolló principalmente en Rusia, España y Argentina.