CONICET | Buscador de Institutos y Recursos Humanos

Los apellidos reconocen un origen geográfico-lingüístico y puedenutilizarse como discriminantes de procedencia. Al estar distribuidos portoda la población, permiten una visión demográfica global. Nuestroobjetivo fue clasificar según origen más probable e identificar patronesde agrupamiento espacial de los apellidos de votantes. Se analizaron30.530.194 personas (Padrón Electoral, 2015), portadoras de 975.112nombres de familia diferentes. Como referencia se emplearon dos listasprevias (Monasterio, 2017; Albeck et al, 2017), con 65.023 apellidos yaclasificados. Los datos se procesaron en forma automática, identificandocoincidencias y asignando orígenes. Así, 24.533.521 personas conapellidos clasificados se georreferenciaron a partir de sus lugares devotación. Para los gráficos de distribución se emplearon el algoritmoFisher-Jenks o método de rupturas naturales (para generar intervalosque mejor agrupen valores similares y maximicen diferencias entreclases) y el de intervalos manuales (para generar mapas a magnitudescomparables). Para optimizar el tiempo de clasificación de los apellidosque quedaron sin asignación de origen, desarrollamos una herramientaanalítica probabilística basada en el teorema de Bayes, usandoalgoritmos de aprendizaje de máquina. El sistema se entrenó con las doslistas ya mencionadas, creando n-gramas (secuencias en las que puedendescomponerse los apellidos, con una longitud n de letras) a partir delconjunto con origen conocido. En la validación, se utilizó n=3 y n=4,obteniendo un índice de precisión de clasificación de 0.80. Estos valoresproporcionan el mayor grado de especificidad y permiten agilizar trabajoen grandes volúmenes de datos.