Métodos de Machine Learning como alternativa para la imputación de datos perdidos
Un ejercicio en base a la Encuesta Permanente de Hogares
Resumen
El presente trabajo expone algunos avances en la construcción de un modelo de imputación de valores perdidos y sin respuesta para las variables de ingreso en encuestas a hogares. Se presentan los resultados de algunos experimentos de imputación de los ingresos correspondientes a la ocupación principal de la Encuesta Permanente de Hogares, basados en técnicas de Ensamble Learning y Deep Learning: Random Forest, XGBoost y Multi-Layer Perceptron. Se compara la performance de estas técnicas con el método Hot Deck (uno de los métodos usados por el Sistema Estadístico Nacional).
En la primera y segunda parte del documento se plantea el problema de forma más específica y se pasa revista a los principales mecanismos de generación de los valores perdidos y sus consecuencias al momento de la imputación de valores perdidos. En la tercera parte, se presentan las técnicas propuestas y sus fundamentos teóricos-metodológicos. Finalmente, en la cuarta sección, se presentan los principales resultados de la aplicación de los métodos propuestos sobre datos de la Encuesta Permanente de Hogares.
Citas
Belin, T. y Song, J. (2015). “Missing data in survey analysis”. En Molenberghs, G., Fitzmaurice, G., Kenward, M., Tsiatis, A. y Verbeke, G. (eds.). Handbook of Missing Data Methodology. New York: Taylor & Francis/CRC: 525-546.
Breiman, L. (1996). Bagging predictors. Machine Learning, 24, 123-140.
—— (2001). Random Forest. Machine Learning, 42, 5-32.
Camelo, H. (1999). Subdeclaración de ingresos medios en las encuestas de hogares, según quintiles de hogares y fuente del ingreso. Trabajo presentado en II Taller Programa para el Mejoramiento de las Encuestas y la Medición de las Condiciones de Vida en América Latina y el Caribe (MECOVI), Buenos Aires.
Dirección General de Estadísticas y Censos (2016). Base Usuarios Ampliada 2015. Encuesta Anual de Hogares de la Ciudad de Buenos Aires. Disponible en https://www.estadisticaciudad.gob.ar/eyc/?cat=93.
Efron, B. y Tibshirani, R. (1995). An Introduction to the Bootstrap. Florida: Chapman & Hall/CRC.
Felcman, D., Kidyba, S. y Ruffo, H. (2004). Medición del ingreso laboral: ajustes a los datos de la encuesta permanente de hogares para el análisis de la distribución del ingreso (1993–2002). Trabajo presentado en el XIV Taller Programa para el Mejoramiento de las Encuestas y la Medición de las Condiciones de Vida en América Latina y el Caribe (MECOVI), Buenos Aires.
Gerón, A. (2017). Hands-on Machine Learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. Boston: O’Reilly.
Goodfellow, I., Bengio, Y. y Courville, A. (2018). Deep Learning. Boston: MIT Press.
Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Berlin: Springer.
Hoszowski, A., Messere, M., y Tombolini, L. (2004). Tratamiento de la no respuesta a las variables de ingreso en la Encuesta Permanente de Hogares de Argentina. Trabajo presentado en el XIV Taller Programa para el Mejoramiento de las Encuestas y la Medición de las Condiciones de Vida en América Latina y el Caribe (MECOVI), Buenos Aires.
INDEC (2009). Ponderación de la muestra y tratamiento de valores faltantes en las variables de ingreso en la EPH. Metodología N.° 15. Buenos Aires.
—— (2017). No respuesta de ingresos en la Encuesta Permanente de Hogares. Documento Técnico (sin número), INDEC, Buenos Aires. Disponible en: https://www.indec.gob.ar/ftp/cuadros/sociedad/nota_EPH_ingresos_06_17.pdf.
Manzano, G. (2016). Imputación de datos de ingresos en encuestas a hogares. La experiencia de la Encuesta Anual De Hogares (EAH) de la Dirección General de Estadística y Censos de la Ciudad De Buenos Aires de Argentina. Resumen de ponencia presentada en el 3.º ISA Forum of Sociology. Disponible en https://isaconf.confex.com/isaconf/forum2016/webprogram/Paper78501.html.
Medina, F. y Galván, M. (2007). Imputación de datos: teoría y práctica". Serie Estudios Estadísticos y Prospectivos, 54, Santiago de Chile: CEPAL. Disponible en http://www.cepal.org/es/publicaciones/4755-imputacion-datos-teoriapractica.
Okun, O., Valentini, G. y Re, M. (2011). Ensambles in Machine Learning Applications. Berlín: Springer.
Pacífico, L., Jaccoud, F., Monteforte, E., y Arakaki, G.A. (2011). La Encuesta Permanente de Hogares, 2003-2010. Un análisis de los efectos de los cambios metodológicos sobre los principales indicadores sociales. Trabajo presentado en el X Congreso Nacional de Estudios del Trabajo, Buenos Aires.
Polikar, R., Zhang, C., y Ma, Y. (eds.) (2012). Ensamble Machine Learning. Methods and Applications. Berlín: Springer.
Rosati, G. (2017). Construcción de un modelo de imputación para variables de ingreso con valores perdidos a partir de ensamble learning. Aplicación a la Encuesta Permanente de Hogares. Revista Saberes, 9(1), 91-111.
Salganik, M. (2018). Bit by bit. Social research in the digital age. New Jersey: Princeton University Press.
Salvia, A. y Donza, E. (1999). Problemas de medición y sesgos de estimación derivados de la no respuesta completa a las preguntas de ingresos en la EPH (1990-1998). Estudios del Trabajo, 18, 93-110.
Schapire, R. y Freund, Y. (2012). Boosting: Foundations and Algorithms . Massachussets: MIT Press.
Van Buuren, S. (2018). Flexible Imputation of Missing Data. New York: Taylor & Francis/CRC.
Zhou, Z. (2012). Ensamble Methods. Foundations and Algorithms. Florida: Chapman & Hall/CRC.
Derechos de autor 2021 Germán Federico Rosati
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0.
Los/as autores conservan los derechos de autor y garantizan a la revista el derecho de ser la primera publicación del trabajo. Se permite a otros compartir el trabajo con un reconocimiento de la autoría del trabajo y la publicación inicial en esta revista, siempre y cuando esos usos no tengan fines comerciales.
Estudios del Trabajo utiliza la licencia Creative Commons 4.0 Atribución, No Comercial y Compartir Igual Internacional (CC BY-NC-SA 4.0) (https://creativecommons.org/licenses/by-nc-sa/4.0/deed.es).
Se permite a los lectores que puedan compartir, copiar, distribuir, alterar, transformar, generar una obra derivada, ejecutar y comunicar públicamente la obra, siempre que: a) se cite la autoría y la fuente original de su publicación (revista, editorial y URL de la obra); b) no se use para fines comerciales; c) se mantengan los mismos términos de la licencia.