INVESTIGADORES
ROSATI German Federico
artículos
Título:
Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de Ensamble Learning. Aplicación en la Encuesta Permanente de Hogares (EPH)
Autor/es:
GERMÁN ROSATI
Revista:
Saberes. Revista de Ciencias Económicas y Estadística
Editorial:
Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario
Referencias:
Lugar: Rosario; Año: 2017 vol. 9 p. 68 - 89
ISSN:
1852-4222
Resumen:
El presente documento se propone exponer los avances realizados en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentará la propuesta metodológica general y los resultados de las pruebas realizadas. Se evalúan dos tipos de modelos de imputación de datos perdidos: 1) el método hot-deck (ampliamente utilizado por relevamientos importantes en el Sistema Estadístico Nacional, tales como la Encuesta Permanente de Hogares y la Encuesta Anual de Hogares de la Ciudad de Buenos Aires) y 2) un ensamble de modelos de regresión LASSO (Least Absolute Shrinkage and Selection Operator). El mismo se basa en la generación de múltiples modelos de regresión LASSO a través del algoritmo bagging y de su agregación para la generación de la imputación final. En la primera parte del documento se pasa revista a los principales mecanismos de generación de los valores perdidos y las implicancias que los mismos tienen al momento de generar modelos de imputación. En la segunda parte se reseñan los métodos de imputación más habitualmente utilizados, sus ventajas y limitaciones. En la tercera parte, se desarrollan los fundamentos teóricos y metodológicos de las dos técnicas de imputación propuestas y se presentan algunos resultados de la aplicación de los métodos propuestos a datos de la Encuesta Permanente de Hogares.