ICSOH   24899
INSTITUTO DE INVESTIGACIONES EN CIENCIAS SOCIALES Y HUMANIDADES
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Aprendizaje Automático para Transcripción de textos históricos mediante Modelamiento del Lenguaje
Autor/es:
EDUARDO XAMENA
Lugar:
Puno
Reunión:
Congreso; I CONGRESO INTERNACIONAL PERUANO ARGENTINO DE INGENIERÍA DE SISTEMAS E INFORMÁTICA y III WORKSHOP DE INTELIGENCIA ARTIFICIAL; 2020
Institución organizadora:
Escuela Profesional de Ingeniería de Sistemas de la Universidad Nacional del Altiplano Puno - Perú y Departamento de Informática de la Universidad Nacional de Salta Argentina
Resumen:
En el ámbito de la Investigación Histórica, es muy útil contar con repositorios de documentos que brinden información asociada a distintos eventos, personas y lugares importantes, con herramientas de búsqueda y visualización apropiadas. Con el objetivo de llevar a cabo el desarrollo de plataformas software en este sentido y con una calidad considerable en grandes volúmenes de textos históricos, se requieren transcripciones digitales que contengan la mínima cantidad posible de errores de transcripción. Por el lado de los textos impresos disponibles, muchas veces los algoritmos de OCR no son capaces de reconocer de manera correcta muchos símbolos o combinaciones de caracteres presentes en las imágenes de las páginas de libros. Respecto a los volúmenes manuscritos, la variabilidad en los estilos de escritura es muy amplia si se considera la gran cantidad de autores y los períodos de la historia en que fueron escritos. Para afrontar estos problemas, dentro de un proyecto de investigación asociado se está llevando a cabo el desarrollo de arquitecturas Machine Learning capaces de, por un lado, actuar como modelos del lenguaje español para la tarea de corrección de textos impresos captados mediante OCR, y por otro lado dar mayor precisión a modelos y esquemas end-to-end existentes para la transcripción de manuscritos históricos.