INVESTIGADORES
TORRES Humberto Maximiliano
informe técnico
Título:
Informe Técnico: Avances en la estimación y el análisis del modelo de entonación de Fujisaki
Autor/es:
HUMBERTO MAXIMILIANO TORRES
Fecha inicio/fin:
2014-12-01/2014-12-05
Páginas:
1-37
Naturaleza de la

Producción Tecnológica:
Informática (software)
Campo de Aplicación:
Otros campos
Descripción:
En este informe resumo las actividades realizadas en el año 2014 en temas relacionados al modelo de entonación de Fujisaki. En el año 2013 habíamos propuesto introducir información lingüística en el modelo de primer orden del método de extracción de parámetros de Mixdorff (Torres et al, 2014), con el objetivo de poder asociar los comandos del modelo con el contenido lingüístico de las oraciones. Si bien se logra un aceptable margen de error en el ajuste de las curvas de entonación, un análisis posterior de los valores de los parámetros de los comandos del modelo reveló que el proceso de optimización de los parámetros diluían las posibilidades de relacionar sus valores con los eventos que le habían dado origen. Por lo cual en este período, propuse un nuevo método de extracción de parámetros (Torres y Gurlekian, 2015). Primero definí que se espera de los elementos del modelo, relacionando eventos acústicos y lingüísticos. Se mantienen las hipótesis para el modelo de primer orden ya presentadas, y en todo momento de la optimización posterior de los parámetros se mantiene la asociación entre comandos y eventos lingüísticos. Primero se propuso un método manual de estimación de parámetros, y luego una implementación computacional, con la cual se hicieron pruebas sobre tres corpora, en tres idiomas: alemán, castellano argentino e inglés. Con este nuevo método logramos tener una asociación directa entre comandos del modelo e información lingüística, y además, una mejora superior al 34% en la bondad del ajuste de la curva de F0 con respecto al método estándar. El método propuesto y los resultados obtenidos con este se presentan en la Parte I de este informe. Luego decidimos analizar los valores de los parámetros extraídos. Primero se estudia la relación entre foco y prominencia versus valores de los parámetros de los comandos de acento. Para ello se diseño, grabó y etiquetó un corpus de datos oral en castellano de argentina y alemán, con oraciones declarativas e interrogativas, sin foco y con foco en determinadas estructuras de las frases. Luego se realizó una evaluación perceptual de foco y de prominencias en las sílabas. Finalmente se exploraron posibles relaciones entre comandos y sílabas más prominentes, y comandos con parámetros de mayor valor y su relación con el foco de la frase. Nuestras pruebas muestran una correlación entre prominencia y los valores de los parámetros de los comandos del modelo de Fujisaki. Sin embargo, no se encontró una relación entre foco y los comandos. En Mixdorff et al. (2015) se presenta una detallada descripción del trabajo realizado para el alemán. En la Parte II de este informe se describen los trabajos realizados y resultados obtenidos para el castellano de la argentina. Continuando con el análisis, se estimaron las distribuciones de los valores de los parámetros de los comandos del modelo versus clases de palabras que le dieron origen. Se optó por una distribución de valores extremos para aproximar las distribuciones de los datos. Los resultados obtenidos muestran una marcada diferencia entre las clases de palabras, las cuales se pueden agrupar, en base a los parámetros de las distribuciones estimadas. Restan realizar pruebas estadísticas para sustentar estos agrupamientos. Esta información podría ser utilizada para mejorar la predicción de los comandos del modelo a partir de un texto de entrada. Además, se espera poder verificar la viabilidad de estos agrupamientos a partir de teorías lingüísticas. Estos trabajos se describen en la Parte III de este informe. Por último, se trabajo con el etiquetado de texto con las clases de palabras. Dado la importancia que han adquirido las clases de palabras, creemos que es necesario profundizar en esta área. Para ello se propuso trabajar con cinco corpus de texto: Notas extraídas de un diario, los discursos de la Presidenta de la Nación, textos de la enciclopedia en línea Wikipedia, discursos realizados en el Senado de la Nación, y diálogos en programas de radio. Se etiquetaron los tres primeros, y los dos último se encuentran en proceso de construcción. Una primera estadística de la distribución de las clases de palabras en los corpora analizados muestran claras diferencias. Se pretende realizar una estimación del nivel de desempeño del etiquetador, comparando su salida con una versión reducida, corregida en forma manual, sobre los tres corpora, y mediante un muestreo aleatorio. Estos trabajos se detallan en la Parte IV de este informe.
rds']