Las redes sintéticas pueden aumentar la disponibilidad de algunos datos al tiempo que protegen la privacidad individual o institucional. según un estadístico de Penn State.
"Mi interés clave es desarrollar una metodología que permita un intercambio más amplio de datos confidenciales de una manera que pueda ayudar en el descubrimiento científico, "dijo Aleksandra Slavkovic, profesor de estadística y decano asociado de educación de posgrado, Eberly College of Science, Penn State. "Ser capaz de compartir datos confidenciales con un riesgo cuantificable mínimo para el descubrimiento de información sensible y aún así garantizar la precisión e integridad estadísticas, es la meta ".
Slavkovic ha encontrado soluciones a este problema de privacidad de datos a través de colaboraciones interdisciplinarias, especialmente con científicos informáticos y sociales. Su investigación se centra en varios datos, incluidos los datos de la red que capturan información sobre las relaciones entre entidades, como individuos o instituciones. Informó sus enfoques para proporcionar redes sintéticas que satisfagan una noción de privacidad diferencial hoy (16 de febrero) durante la reunión anual de 2019 de la Asociación Estadounidense para el Avance de la Ciencia en Washington. CORRIENTE CONTINUA.
La privacidad diferencial proporciona una garantía matemáticamente demostrable del nivel de pérdida de privacidad de las personas.
Los científicos quieren tener acceso a los datos recopilados por otros para su investigación, pero dicho acceso también podría comprometer la privacidad personal, incluso después de la eliminación de los denominados datos de identificación personal.
"Una gran cantidad de datos auxiliares es el principal culpable, ", dijo Slavkovic." Con los avances metodológicos y tecnológicos en la recopilación de datos y la vinculación de registros, acceso más fácil a una variedad de fuentes de datos que podrían vincularse con un conjunto de datos en la mano, y los requisitos de las agencias de financiación para compartir datos, los riesgos para la privacidad de los datos están aumentando. Pero, encontrar buenas soluciones para gestionar la pérdida de privacidad es esencial para permitir un descubrimiento científico sólido ".
Información disponible públicamente de un ensayo de un fármaco contra el VIH, por ejemplo, indicaría quién estaba en el grupo de tratamiento y quién estaba en el grupo de control. El grupo de tratamiento incluiría solo personas diagnosticadas con VIH y, aunque los propietarios de los datos ocultaron los datos personales de ese conjunto de datos, quedaría alguna información de identificación. Debido a que hoy en día hay tanta información disponible en línea en las redes sociales y en otros conjuntos de datos, es posible conectar los puntos e identificar personas, potencialmente revelando su estado serológico.
"Técnicas para vincular dos conjuntos de datos, dicen los registros de votantes y los datos del seguro médico, han mejorado mucho, ", dijo Slavkovic." En uno de los primeros hallazgos, Latanya Sweeny (ahora en Harvard) demostró que al vincular este tipo de datos, puede identificar al 87 por ciento de las personas en el censo de EE. UU. de 1990 según su fecha de nacimiento, género y código postal de 5 dígitos. Más recientemente, los investigadores utilizaron tweets y metadatos de Twitter asociados para demostrar que pueden identificar a los usuarios con una precisión del 96,7 por ciento ".
Slavkovic señala que no son solo las personas o instituciones cuyos datos están contenidos en las bases de datos, pero que las personas ajenas a la base de datos también pueden sufrir una invasión de la privacidad, directamente o por asociación. Los vínculos entre la información en un conjunto de datos y la información en las redes sociales pueden conducir a una violación grave de la privacidad; algo como el estado del VIH u orientación sexual podría tener graves repercusiones si se revela.
Si bien la privacidad es importante, Los conjuntos de datos recopilados constituyen una fuente de información esencial para los investigadores. En la actualidad, en algunos casos, cuando los datos son excepcionalmente sensibles, los investigadores deben ir físicamente a los repositorios de datos para hacer su investigación, haciendo que la investigación sea más difícil y costosa.
Slavkovic está interesado en los datos de la red. Información que muestra la interconexión de personas o instituciones (los nodos) y las conexiones entre nodos. Su enfoque es crear ligeramente alterado, conjuntos de datos de red reflejados con algunos de los nodos movidos, conexiones desplazadas o bordes alterados.
"El objetivo es crear nuevas redes que satisfagan los rigurosos requisitos de privacidad diferencial y, al mismo tiempo, capturen la mayoría de las características estadísticas de la red original, "dijo Slavkovic.
Estos conjuntos de datos sintéticos podrían ser suficientes para que algunos investigadores satisfagan sus necesidades de investigación. Para otros, sería suficiente probar sus enfoques e hipótesis antes de tener que ir al sitio de almacenamiento de datos. Los investigadores podrían probar el código, realizar una investigación exploratoria y quizás un análisis básico mientras espera el permiso para utilizar los datos originales en su sitio de repositorio.
"No podemos satisfacer las demandas de todos los análisis estadísticos con el mismo tipo de datos alterados, ", dijo Slavkovic." Algunas personas necesitarán los datos originales, pero otros pueden recorrer un largo camino con datos sintéticos como las redes sintéticas ".