• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Anonimizar los datos personales no es suficiente para proteger la privacidad. muestra nuevo estudio

    Crédito:CC0 Public Domain

    Con las primeras multas importantes por violar las regulaciones del Reglamento General de Protección de Datos (GDPR) de la UE sobre nosotros, y el gobierno del Reino Unido a punto de revisar las directrices del RGPD, Los investigadores han demostrado cómo incluso los conjuntos de datos anonimizados se pueden rastrear hasta las personas que utilizan el aprendizaje automático.

    Los investigadores dicen que su artículo publicado hoy en Comunicaciones de la naturaleza , demuestra que permitir el uso de datos para entrenar algoritmos de IA, por ejemplo, mientras se preserva la privacidad de las personas, requiere mucho más que simplemente agregar ruido, conjuntos de datos de muestreo, y otras técnicas de desidentificación.

    También han publicado una herramienta de demostración que permite a las personas comprender la probabilidad de que sean rastreados. incluso si el conjunto de datos en el que se encuentran es anonimizado y solo se comparte una pequeña fracción.

    Dicen que sus hallazgos deberían ser una llamada de atención para los formuladores de políticas sobre la necesidad de endurecer las reglas para lo que constituyen datos verdaderamente anónimos.

    Tanto las empresas como los gobiernos recopilan y utilizan nuestros datos personales de forma rutinaria. Nuestros datos y la forma en que se utilizan están protegidos por leyes relevantes como GDPR o la Ley de Privacidad del Consumidor de California (CCPA) de EE. UU.

    Los datos son "muestreados" y anonimizados, que incluye eliminar los datos de características identificativas como nombres y direcciones de correo electrónico, para que los individuos no puedan, En teoria, ser identificado. Después de este proceso, los datos ya no están sujetos a la normativa de protección de datos, por lo que se puede utilizar y vender libremente a terceros como empresas de publicidad y corredores de datos.

    La nueva investigación muestra que una vez comprado, los datos a menudo pueden someterse a ingeniería inversa mediante el aprendizaje automático para volver a identificar a las personas, a pesar de las técnicas de anonimización.

    Esto podría exponer información confidencial sobre personas identificadas personalmente, y permitir a los compradores crear perfiles personales de individuos cada vez más completos.

    La investigación demuestra por primera vez con qué facilidad y precisión se puede hacer esto, incluso con conjuntos de datos incompletos.

    En la investigación, El 99,98 por ciento de los estadounidenses se volvió a identificar correctamente en cualquier conjunto de datos 'anonimizados' disponible utilizando solo 15 características, incluida la edad, género, y estado civil.

    El primer autor, el Dr. Luc Rocher de UCLouvain, dijo:"Si bien puede haber muchas personas que estén en la treintena, masculino, y viviendo en la ciudad de Nueva York, muchos menos de ellos también nacieron el 5 de enero, están conduciendo un auto deportivo rojo, y vivir con dos niños (ambas niñas) y un perro ".

    Para demostrar esto, Los investigadores desarrollaron un modelo de aprendizaje automático para evaluar la probabilidad de que las características de un individuo sean lo suficientemente precisas como para describir solo a una persona en una población de miles de millones.

    También desarrollaron una herramienta en línea, que no guarda datos y es solo para fines de demostración, para ayudar a las personas a ver qué características las hacen únicas en los conjuntos de datos.

    La herramienta primero le pide que ingrese la primera parte de su código postal (Reino Unido) o postal (EE. UU.), género, y fecha de nacimiento, antes de darles una probabilidad de que su perfil pueda volver a identificarse en cualquier conjunto de datos anonimizados.

    Luego le pregunta su estado civil, número de vehículos, estado de propiedad de la casa, y situación laboral, antes de volver a calcular. Añadiendo más características, la probabilidad de que una coincidencia sea correcta aumenta drásticamente.

    El autor principal, el Dr. Yves-Alexandre de Montjoye, del Departamento de Computación de Imperial, e Instituto de Ciencia de Datos, dijo:"Esta es una información bastante estándar que las empresas pueden solicitar. Aunque están sujetas a las directrices del RGPD, son libres de vender los datos a cualquier persona una vez que se anonimizan. Nuestra investigación muestra la facilidad y la precisión con la que se puede rastrear a los individuos una vez que esto sucede.

    Añadió:"Las empresas y los gobiernos han minimizado el riesgo de reidentificación al argumentar que los conjuntos de datos que venden siempre están incompletos.

    "Nuestros hallazgos contradicen esto y demuestran que un atacante podría estimar de manera fácil y precisa la probabilidad de que el registro que encontraron pertenece a la persona que está buscando".

    La reidentificación de datos anonimizados es la forma en que los periodistas expusieron las declaraciones de impuestos de 1985-94 de Donald Trump en mayo de 2019.

    El coautor, el Dr. Julien Hendrickx de UCLouvain, dijo:"A menudo se nos asegura que la anonimización mantendrá segura nuestra información personal. Nuestro artículo muestra que la desidentificación no es lo suficientemente cerca como para proteger la privacidad de los datos de las personas".

    Los investigadores dicen que los legisladores deben hacer más para proteger a las personas de tales ataques, lo que podría tener serias ramificaciones para las carreras, así como para la vida personal y financiera.

    El Dr. Hendrickx agregó:"Es esencial que los estándares de anonimización sean sólidos y tengan en cuenta nuevas amenazas como la que se demuestra en este documento".

    El Dr. de Montjoye dijo:"El objetivo de la anonimización es que podamos utilizar los datos en beneficio de la sociedad. Esto es extremadamente importante, pero no debe ni debe suceder a expensas de la privacidad de las personas".


    © Ciencia https://es.scienceaq.com