INVESTIGADORES
SANCHEZ Maria Elina
congresos y reuniones científicas
Título:
Diccionario de frecuencia léxica infantil para el español rioplatense: el Cuenta palabras
Autor/es:
FUMAGALLI, JULIETA; MARÍA ELINA SÁNCHEZ
Reunión:
Congreso; 68. VIII Encuentro Internacional de la Asociación Argentina de Ciencias del Comportamiento; 2023
Institución organizadora:
Asociación Argentina de Ciencias del Comportamiento
Resumen:
Introducción: En el diseño de las distintas tareas que se utilizan para el estudio de la comprensión y producción del lenguaje es necesario controlar, por un lado, distintas variables lingüísticas como la longitud de la palabra y la complejidad silábica u ortosilábica y, por otro, variables psicolingüísticas como la vecindad ortográfica y fonológica, la familiaridad, la edad de adquisición, la concretud e imaginabilidad y la frecuencia léxica. La frecuencia léxica permite explicar por qué el procesamiento de algunas palabras es más rápido y efectivo que el de otras. Sin embargo, a pesar de su relevancia teórica y experimental, en el caso del español rioplatense aún no contamos con diccionarios de frecuencia léxica para adultos ni para niños. Esto lleva a que en el diseño de herramientas de evaluación experimental o clínica para nuestra población se utilicen bases generadas en otros dialectos, generalmente el español ibérico. Objetivo: En este trabajo se mostrarán los datos actualizados utilizados para la elaboración de un diccionario de frecuencia léxica infantil para el español en su variedad rioplatense. Materiales: El corpus actual fue elaborado a partir de 57 textos escolares de 1º a 7º grado de nivel primario del cual se extrajeron 2.718.079 palabras totales y 107.774 palabras únicas. Del total de 57 textos, 34 fueron adquiridos en formato digital y 23 en formato físico.Análisis de datos: Para la elaboración del corpus los textos adquiridos en formato físico fueron digitalizados mediante escáner óptico y procesados con sistemas de Reconocimiento Óptico de Caracteres (OCR). Luego, los datos fueron cargados y normalizados para calcular la frecuencia total y la frecuencia de cada ítem según nivel escolar. El procesamiento se realizó mediante algoritmos implementados en el lenguaje Python3, con las librerías de Procesamiento de Lenguaje Natural NLTK y SpaCy. Para el cálculo de las frecuencias se segmentaron las palabras a partir de los espacios, se eliminaron todos los signos de puntuación y ortográficos (se dejó solo caracteres y números) y se contabilizaron las apariciones de cada una de los ítems obtenidos (mediante la función FreqDist de la librería NLTK). Luego, con la librería SpaCy se filtraron aquellos ítems que no pertenecen al diccionario en ella definida.Resultados: Las palabras funcionales son las más frecuentes. Por ejemplo, “de” = 131.000 apariciones totales. El verbo más frecuente es “es” con 17.311 apariciones totales. Los sustantivos más comunes son “palabras” con 4162, “ejemplo” con 4073 y “agua” con 3771. El conector más frecuente es “y” con 74387. Tenemos 30.000 ítems que aparecen una sola vez, por ejemplo “gladiolo”, “principado”, “cabrío”, “glosas”, entre otras.