Crédito:CC0 Public Domain
Después de que la Oficina del Censo de EE. UU. Anunció que estaba cambiando la forma en que protege las identidades de las personas para el Censo de 2020, un equipo de investigación dirigido por Penn State comenzó a evaluar cómo estos cambios pueden afectar la integridad de los datos del censo.
La Oficina del Censo propone utilizar la privacidad diferencial, un nuevo método que intenta proteger la identidad de las personas al publicar datos públicos. Los datos del censo se utilizan para distribuir fondos federales que impactan a las comunidades y también determinan la representación en el Congreso.
Alexis Santos, profesor asistente de desarrollo humano y estudios familiares en Penn State, junto con los investigadores Jeffrey Howard, profesor asistente en la Universidad de Texas en San Antonio, y Ashton Verdery, profesor asistente de sociología, demografía, y análisis de datos sociales en Penn State, examinaron las tasas de mortalidad en 2010. Los investigadores compararon ambos métodos de protección de la privacidad y las implicaciones de este cambio para comprender mejor las disparidades de salud en los Estados Unidos. El trabajo fue publicado recientemente en procedimientos de la Academia Nacional de Ciencias .
El equipo de investigación descubrió que cuando se usaba el método de privacidad diferencial en los datos del censo, produjo cambios dramáticos en los recuentos de población de las minorías raciales y étnicas en comparación con los métodos tradicionales.
"Nos centramos en las estimaciones de la tasa de mortalidad porque son una métrica esencial a nivel de población para la que se recopilan y difunden datos a nivel nacional y porque las tasas de mortalidad son un indicador crítico de la salud de la población, "dijo Santos.
Luego, el equipo de investigación exploró los cambios en las tasas de mortalidad que resultan de los dos sistemas de evitación de divulgación por clasificaciones metropolitanas.
"Descubrimos que al utilizar la privacidad diferencial, hubo casos de recuento insuficiente y excesivo de la población. En áreas rurales, hubo subestimación de las minorías raciales y étnicas, mientras que en las zonas urbanas hubo un recuento excesivo de estas poblaciones, Santos dijo.
Los investigadores encontraron que algunas discrepancias entre los dos métodos de análisis de datos excedían una diferencia del 10%.
"Esto es muy preocupante porque podría afectar la cantidad de fondos que reciben los programas para un área geográfica específica, ", dijo Santos." Estas discrepancias podrían resultar en riesgos para la salud subestimados en algunas áreas, y mientras exagera en otros donde no hay una gran necesidad ".
Según Santos, los hallazgos destacan las consecuencias de implementar la privacidad diferencial y demuestran los desafíos en el uso de los productos de datos derivados de este método.
"La Oficina del Censo ha sido muy receptiva a nuestra investigación, y demostró preocupación por la exactitud de los datos, ", Dijo Santos." Planeamos seguir adelante con investigaciones adicionales para determinar cómo la privacidad diferencial puede afectar las estimaciones de crecimiento de la población y los cambios de población de un año de censo a otro. Todavía tenemos tiempo para ajustar el algoritmo de privacidad diferencial, y nuestra investigación ayudará a identificar áreas de mejora ".