Es difícil subestimar la importancia de los datos de las encuestas:nos dicen quiénes somos y, en manos de los encargados de formular políticas, qué hacer.
Brady West se había percatado durante mucho tiempo de que un experto en metodología de encuestas en la Universidad de Michigan, Ann Arbor, que los beneficios de los datos de las encuestas coexistían con la falta de formación sobre cómo interpretarlos correctamente, especialmente cuando se trataba de análisis secundarios:los investigadores volvían a analizar los datos de encuestas que habían sido recopilados por un estudio anterior.
"En mi labor de consultoría para organizaciones y empresas, la gente entraba y decía:'Bien, aquí está mi estimación de la frecuencia con la que ocurre algo en una población, 'como la tasa de una enfermedad o las preferencias por un partido político. Y querrían saber cómo interpretar eso. Yo respondería '¿Ha tenido en cuenta la ponderación en los datos de la encuesta que está utilizando, o ¿Tuviste en cuenta el diseño de la muestra? Y yo diría probablemente el 90 por ciento del tiempo, me miraban y no tenían idea de lo que estaba hablando. Nunca habían aprendido los principios fundamentales de trabajar con datos de encuestas en sus clases estándar de Introducción a las estadísticas ".
Como metodólogo de encuestas, West se preguntó si su experiencia era indicativa de un problema sistémico. No había mucho en la literatura académica para responder a la pregunta, para que él y sus colegas Joseph Sakshaug y Guy Aurelien, muestrearon 250 papeles, informes y presentaciones, todos disponibles en línea, todos llevando a cabo análisis secundarios de los datos de la encuesta, para ver si estos errores analíticos fueron, Por supuesto, común.
"Fue bastante impactante, ", dice West." Sólo alrededor de la mitad de estos análisis afirmaron tener en cuenta la ponderación, el impacto de los diseños de muestra en las estimaciones de la varianza fue ampliamente malinterpretado y no hubo signos de mejora en estos problemas con el tiempo ". Pero posiblemente lo peor de todo es que estos problemas eran tan frecuentes en la literatura revisada por pares de su muestra como en los informes técnicos y las presentaciones de conferencias. "Eso es lo más impactante para mí, ", dice West." El proceso de revisión por pares no detectó estos errores ".
Un ejemplo alarmante de lo que puede suceder cuando calcula una estimación pero ignora la ponderación de la encuesta se puede encontrar en la Encuesta Nacional de Graduados Universitarios de 2010 (NSCG). "Esta es una gran encuesta nacional de graduados universitarios, y literalmente dicen en su documentación que están sobremuestreando a personas con títulos en ciencias e ingeniería, "dice West." Si se tiene en cuenta la ponderación, que corrige este sobremuestreo, alrededor del 30 por ciento de las personas están obteniendo títulos en ciencias e ingeniería; si te olvidas de la ponderación, extrapolas la sobremuestra a toda la población, y de repente el 55 por ciento de la gente tiene títulos en ciencias e ingeniería ".
Irónicamente, Un mejor muestreo de las poblaciones subestudiadas puede estar agravando el problema. "Hay mucho interés en las poblaciones subrepresentadas, como los hispanos, "dice West". Muchas encuestas nacionales sobremuestrean estos grupos y otros para crear una muestra lo suficientemente grande para que los investigadores la estudien adecuadamente. Pero cuando el Investigador Joe promedio obtiene todos los datos, no solo los datos de la subpoblación que les interesa, pero todo el mundo, ropa blanca, Afroamericano, e hispanos, y luego intentan analizar todos esos datos de forma colectiva, es entonces cuando el sobremuestreo puede tener un efecto terrible en el panorama general si esa característica del diseño de la muestra no se tiene en cuenta correctamente en la estimación ".
Hay muchas herramientas de software fáciles de usar que pueden explicar fácilmente las complejidades de muestreo y ponderación asociadas con los datos de la encuesta. pero el hecho de que no se estén utilizando habla del problema subyacente.
"Este problema se origina en el hecho de que a las personas que publican estos artículos simplemente no se les informa nada de esto en su capacitación, ", dice West." Hemos sabido acerca de la importancia de la ponderación de encuestas durante casi un siglo, pero de alguna manera cómo manejar los datos de encuestas ponderadas no ha penetrado las clases de estadística que los investigadores toman a nivel de pregrado o posgrado. Gastamos una fortuna en hacer encuestas nacionales, y quién sabe cuánto nos está costando malinterpretar esos datos ".
Para solucionar ese problema, West está ayudando a diseñar un MOOC (curso masivo abierto en línea) en la Universidad de Michigan que presenta estadísticas con el software Python. La ponderación y los análisis correctos de encuestas se enseñarán en el primer curso de esa especialización. "Realmente nos estamos enfocando en asegurarnos de que antes de comenzar cualquier análisis de datos de encuestas, tiene un conocimiento realmente firme de cómo se recopilaron los datos y de dónde provienen ".