Métodos de Machine Learning como alternativa para la imputación de datos perdidos

Un ejercicio en base a la Encuesta Permanente de Hogares

  • Germán Federico Rosati CONICET-UNSAM / PIMSA
Palabras clave: aprendizaje automático, encuestas, datos perdidos, imputación

Resumen

El presente trabajo expone algunos avances en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentan los resultados de algunos experimentos de imputación de los ingresos correspondientes a la ocupación principal de la Encuesta Permanente de Hogares, basados en técnicas de Ensamble Learning y Deep Learning: Random Forest, XGBoost y Multi-Layer Perceptron. Se compara la performance de estas técnicas con el método Hot Deck (uno de los métodos usados por el Sistema Estadístico Nacional).

En la primera y segunda parte del documento se plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y sus consecuencias al momento de la imputación de valores perdidos. En la tercera parte, se presentan las técnicas propuestas y sus fundamentos teóricos-metodológicos. Finalmente, en la cuarta sección, se presentan los principales resultados de la aplicación de los métodos propuestos sobre datos de la Encuesta Permanente de Hogares.

Citas

Belin, T. y Song, J. (2015). “Missing data in survey analysis”. En Molenberghs, G., Fitzmaurice, G., Kenward, M., Tsiatis, A. y Verbeke, G. (eds.). Handbook of Missing Data Methodology. New York: Taylor & Francis/CRC: 525-546.

Breiman, L. (1996). Bagging predictors. Machine Learning, 24, 123-140.

—— (2001). Random Forest. Machine Learning, 42, 5-32.

Camelo, H. (1999). Subdeclaración de ingresos medios en las encuestas de hogares, según quintiles de hogares y fuente del ingreso. Trabajo presentado en II Taller Programa para el Mejoramiento de las Encuestas y la Medición de las Condiciones de Vida en América Latina y el Caribe (MECOVI), Buenos Aires.

Dirección General de Estadísticas y Censos (2016). Base Usuarios Ampliada 2015. Encuesta Anual de Hogares de la Ciudad de Buenos Aires. Disponible en https://www.estadisticaciudad.gob.ar/eyc/?cat=93.

Efron, B. y Tibshirani, R. (1995). An Introduction to the Bootstrap. Florida: Chapman & Hall/CRC.

Felcman, D., Kidyba, S. y Ruffo, H. (2004). Medición del ingreso laboral: ajustes a los datos de la encuesta permanente de hogares para el análisis de la distribución del ingreso (1993–2002). Trabajo presentado en el XIV Taller Programa para el Mejoramiento de las Encuestas y la Medición de las Condiciones de Vida en América Latina y el Caribe (MECOVI), Buenos Aires.

Gerón, A. (2017). Hands-on Machine Learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. Boston: O’Reilly.

Goodfellow, I., Bengio, Y. y Courville, A. (2018). Deep Learning. Boston: MIT Press.

Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Berlin: Springer.

Hoszowski, A., Messere, M., y Tombolini, L. (2004). Tratamiento de la no respuesta a las variables de ingreso en la Encuesta Permanente de Hogares de Argentina. Trabajo presentado en el XIV Taller Programa para el Mejoramiento de las Encuestas y la Medición de las Condiciones de Vida en América Latina y el Caribe (MECOVI), Buenos Aires.

INDEC (2009). Ponderación de la muestra y tratamiento de valores faltantes en las variables de ingreso en la EPH. Metodología N.° 15. Buenos Aires.

—— (2017). No respuesta de ingresos en la Encuesta Permanente de Hogares. Documento Técnico (sin número), INDEC, Buenos Aires. Disponible en: https://www.indec.gob.ar/ftp/cuadros/sociedad/nota_EPH_ingresos_06_17.pdf.

Manzano, G. (2016). Imputación de datos de ingresos en encuestas a hogares. La experiencia de la Encuesta Anual De Hogares (EAH) de la Dirección General de Estadística y Censos de la Ciudad De Buenos Aires de Argentina. Resumen de ponencia presentada en el 3.º ISA Forum of Sociology. Disponible en https://isaconf.confex.com/isaconf/forum2016/webprogram/Paper78501.html.

Medina, F. y Galván, M. (2007). Imputación de datos: teoría y práctica". Serie Estudios Estadísticos y Prospectivos, 54, Santiago de Chile: CEPAL. Disponible en http://www.cepal.org/es/publicaciones/4755-imputacion-datos-teoriapractica.

Okun, O., Valentini, G. y Re, M. (2011). Ensambles in Machine Learning Applications. Berlín: Springer.

Pacífico, L., Jaccoud, F., Monteforte, E., y Arakaki, G.A. (2011). La Encuesta Permanente de Hogares, 2003-2010. Un análisis de los efectos de los cambios metodológicos sobre los principales indicadores sociales. Trabajo presentado en el X Congreso Nacional de Estudios del Trabajo, Buenos Aires.

Polikar, R., Zhang, C., y Ma, Y. (eds.) (2012). Ensamble Machine Learning. Methods and Applications. Berlín: Springer.

Rosati, G. (2017). Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación a la Encuesta Permanente de Hogares. Revista Saberes, 9(1), 91-111.

Salganik, M. (2018). Bit by bit. Social research in the digital age. New Jersey: Princeton University Press.

Salvia, A. y Donza, E. (1999). Problemas de medición y sesgos de estimación derivados de la no respuesta completa a las preguntas de ingresos en la EPH (1990-1998). Estudios del Trabajo, 18, 93-110.

Schapire, R. y Freund, Y. (2012). Boosting: Foundations and Algorithms . Massachussets: MIT Press.

Van Buuren, S. (2018). Flexible Imputation of Missing Data. New York: Taylor & Francis/CRC.

Zhou, Z. (2012). Ensamble Methods. Foundations and Algorithms. Florida: Chapman & Hall/CRC.

Publicado
2021-06-01
Cómo citar
Rosati, G. (2021). Métodos de Machine Learning como alternativa para la imputación de datos perdidos. Estudios Del Trabajo. Revista De La Asociación Argentina De Especialistas En Estudios Del Trabajo (ASET), (61). Recuperado a partir de https://ojs.aset.org.ar/revista/article/view/81
Sección
Artículos