IFIBA   22255
INSTITUTO DE FISICA DE BUENOS AIRES
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Digitalización con escáneres "Do It Yourself" y scraping de textos para construir una base de datos del dominio público de Argentina
Autor/es:
GAMBA, GUIDO; CAPORALE, CARLA ACTIS; DE LA HERA, DIEGO PABLO; RAIA, MATÍAS; HEIDEL, EVELIN; ACUÑA, EZEQUIEL
Lugar:
Ciudad Autónoma de Buenos Aires
Reunión:
Encuentro; I Encuentro de conservación y digitalización; 2016
Institución organizadora:
MUSEO NACIONAL DEL CABILDO Y LA REVOLUCIÓN DE MAYO
Resumen:
Una vez que han expirado los plazos de monopolio del derecho de autor (70 años post-mortem en Argentina), las obras literarias, artísticas y científicas ingresan al dominio público. Esto implica que cualquier persona puede utilizar esas obras para crear nuevas obras, trasladarlas a diferentes formatos, traducirlas, intervenirlas y también digitalizarlas y ponerlas a disposición del público, entre otras actividades. Así, el dominio público se convierte en un interesante territorio para la experimentación artística, para la divulgación en general y para la disponibilización de obras culturales.Sin embargo, no existe información consistente sobre qué obras efectivamente están en dominio público. Aunque a primera vista el cálculo parece relativamente sencillo de hacer, cuando aparecen autores más desconocidos o menos contemporáneos, los cálculos empiezan a complejizarse. La falta de información consistente y unificada repercute a su vez en las posibilidades de digitalizar, divulgar o editar estas obras, ya que se desconoce el estatuto legal en el que se encuentran.Para resolver este problema, con un grupo de colegas comenzamos a trabajar sobre una base de datos de autores de Argentina en el dominio público, inspirados en la experiencia de Autores.Uy. El sitio http://dominiopublico.org.ar busca convertirse, como primer objetivo, en una base de datos de fácil consulta para saber si las obras de un autor se encuentran en el dominio público o no.En una primera instancia, reunimos más de 25 fuentes bibliográficas secundarias (enciclopedias, diccionarios biográficos, catálogos, entre otros) y las digitalizamos con escáneres de libros ?Do It Yourself?, escáneres hechos con madera, cámaras de fotos y controlados a través de una RaspberryPi (http://diybookscanner.org/es/index.html). Algunos de estos diccionarios muestran cierta estructura en la presentación de la información de modo tal que fue posible hacer scraping automático de textos. Con el motor Tesseract hicimos OCR de las fuentes mejor estructuradas y mediante un script hecho en Python extrajimos del OCR los campos de datos que nos interesaba obtener (nombre y apellido, variantes de nombre, seudónimos, fecha de muerte y nacimiento, localidad de nacimiento, disciplina), descartando la información restante referida a los datos bio-bliográficos de los autores. El script entrega información referida al índice de confiabilidad del motor de OCR y señala posibles errores para facilitar la revisión manual. Una vez que es revisada manualmente por los voluntarios del proyecto, la planilla se compara con la fichas cargadas previamente y finalmente se importa a la base de datos. El código del script está disponible con una licencia GPLv3 y está publicado en GitLab: https://gitlab.com/diegodlh/autores/tree/master.El presente trabajo busca relatar esta experiencia de digitalización y scraping, explicar la necesidad de una base de datos del dominio público para facilitar la digitalización de obras culturales y comprender la importancia estratégica del dominio público en el fortalecimiento de los derechos culturales, y comentar brevemente las diferentes etapas de desarrollo del proyecto Dominio Público de Argentina.