CONICET | Buscador de Institutos y Recursos Humanos

Los apellidos reconocen un origen geográfico-lingüístico y pueden utilizarse como discriminantes de procedencia. Al estar distribuidos por toda la población, permiten una visión demográfica global. Nuestro objetivo fue clasificar según origen más probable e identificar patrones de agrupamiento espacial de los apellidos de votantes. Se analizaron 30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112 nombres de familia diferentes. Como referencia se emplearon dos listas previas (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos ya clasificados. Los datos se procesaron en forma automática, identificando coincidencias y asignando orígenes. Así, 24.533.521 personas con apellidos clasificados se georreferenciaron a partir de sus lugares de votación. Para los gráficos de distribución se emplearon el algoritmo Fisher-Jenks o método de rupturas naturales (para generar intervalos que mejor agrupen valores similares y maximicen diferencias entre clases) y el de intervalos manuales (para generar mapas a magnitudes comparables). Para optimizar el tiempo de clasificación de los apellidos que quedaron sin asignación de origen, desarrollamos una herramienta analítica probabilística basada en el teorema de Bayes, usando algoritmos de aprendizaje de máquina. El sistema se entrenó con las dos listas ya mencionadas, creando n-gramas (secuencias en las que pueden descomponerse los apellidos, con una longitud n de letras) a partir del conjunto con origen conocido. En la validación, se utilizó n=3 y n=4, obteniendo un índice de precisión de clasificación de 0.80. Estos valores proporcionan el mayor grado de especificidad y permiten agilizar trabajo en grandes volúmenes de datos.

enviar mensaje