Los investigadores del MIT encuentran que la práctica creciente de compilar conjuntos de datos masivos sobre los patrones de movimiento de las personas para la planificación urbana y la investigación del desarrollo puede, De hecho, poner en riesgo los datos privados de las personas, incluso si esos datos son anónimos. Crédito:Instituto de Tecnología de Massachusetts
Un nuevo estudio realizado por investigadores del MIT encuentra que la práctica creciente de compilar datos masivos, Los conjuntos de datos anónimos sobre los patrones de movimiento de las personas son un arma de doble filo:si bien pueden proporcionar conocimientos profundos sobre el comportamiento humano para la investigación, también podría poner en riesgo los datos privados de las personas.
Compañías, investigadores, y otras entidades están empezando a cobrar, Tienda, y procesar datos anónimos que contienen "sellos de ubicación" (coordenadas geográficas y sellos de tiempo) de los usuarios. Los datos se pueden obtener de los registros de teléfonos móviles, transacciones con tarjeta de crédito, tarjetas inteligentes de transporte público, Cuentas de Twitter, y aplicaciones móviles. La fusión de esos conjuntos de datos podría proporcionar información valiosa sobre cómo viajan los humanos, por ejemplo, optimizar el transporte y la planificación urbana, entre otras cosas.
Pero con los macrodatos vienen grandes problemas de privacidad:los sellos de ubicación son extremadamente específicos para las personas y pueden usarse para propósitos nefastos. Investigaciones recientes han demostrado que, dado solo unos pocos puntos seleccionados al azar en conjuntos de datos de movilidad, alguien podría identificar y obtener información confidencial sobre las personas. Con conjuntos de datos de movilidad fusionados, esto se vuelve aún más fácil:un agente podría hacer coincidir las trayectorias de los usuarios en datos anónimos de un conjunto de datos, con datos desanonimizados en otro, para desenmascarar los datos anónimos.
En un artículo publicado hoy en Transacciones IEEE sobre Big Data , los investigadores del MIT muestran cómo esto puede suceder en el primer análisis de la llamada "coincidencia" del usuario en dos conjuntos de datos a gran escala de Singapur, uno de un operador de red móvil y otro de un sistema de transporte local.
Los investigadores utilizan un modelo estadístico que rastrea los sellos de ubicación de los usuarios en ambos conjuntos de datos y proporciona una probabilidad de que los puntos de datos en ambos conjuntos provengan de la misma persona. En experimentos, los investigadores encontraron que el modelo podría coincidir con alrededor del 17 por ciento de las personas en una semana de datos, y más del 55 por ciento de las personas después de un mes de recopilar datos. El trabajo demuestra una eficiencia, forma escalable de igualar las trayectorias de movilidad en conjuntos de datos, lo que puede ser de gran ayuda para la investigación. Pero, los investigadores advierten, Dichos procesos pueden aumentar la posibilidad de desanonimizar los datos reales de los usuarios.
"Como investigadores, Creemos que trabajar con conjuntos de datos a gran escala puede permitir descubrir conocimientos sin precedentes sobre la sociedad humana y la movilidad. permitiéndonos planificar mejor las ciudades. Sin embargo, es importante mostrar si la identificación es posible, para que las personas puedan estar al tanto de los riesgos potenciales de compartir datos de movilidad, "dice Daniel Kondor, un postdoctorado en el Future Urban Mobility Group en la Alianza Singapur-MIT para la Investigación y la Tecnología.
"Al publicar los resultados, y en particular, las consecuencias de eliminar el anonimato de los datos:nos sentimos un poco como piratas informáticos 'de sombrero blanco' o 'éticos', "agrega el coautor Carlo Ratti, profesor de la práctica en el Departamento de Estudios Urbanos y Planificación del MIT y director del Senseable City Lab del MIT. "Sentimos que era importante advertir a la gente sobre estas nuevas posibilidades [de fusión de datos] y [considerar] cómo podríamos regularlas".
Los coautores del estudio son Behrooz Hashemian, un postdoctorado en el Senseable City Lab, e Yves-Alexandre de Mondjoye del Departamento de Informática y del Instituto de Ciencia de Datos del Imperial College de Londres.
Eliminando falsos positivos
Para comprender cómo funcionan los sellos de ubicación coincidentes y la posible desanonimización, considere este escenario:"Estuve en la isla Sentosa en Singapur hace dos días, Llegó ayer al aeropuerto de Dubai, y estoy en la playa de Jumeirah en Dubai hoy. Es muy poco probable que la trayectoria de otra persona se vea exactamente igual. En breve, si alguien tiene la información de mi tarjeta de crédito anónima, y quizás mis datos de ubicación abiertos de Twitter, luego podrían desanonimizar los datos de mi tarjeta de crédito, "Dice Ratti.
Existen modelos similares para evaluar la desanonimización de los datos. Pero esos usan enfoques computacionalmente intensivos para la reidentificación, lo que significa fusionar datos anónimos con datos públicos para identificar a personas específicas. Estos modelos solo han funcionado en conjuntos de datos limitados. En cambio, los investigadores del MIT utilizaron un enfoque estadístico más simple, midiendo la probabilidad de falsos positivos, para predecir de manera eficiente la compatibilidad entre puntuaciones de usuarios en conjuntos de datos masivos.
En su trabajo, Los investigadores recopilaron dos conjuntos de datos anónimos de "baja densidad" (unos pocos registros por día) sobre el uso de teléfonos móviles y el transporte personal en Singapur. registrados durante una semana en 2011. Los datos móviles provienen de un gran operador de red móvil y comprenden marcas de tiempo y coordenadas geográficas en más de 485 millones de registros de más de 2 millones de usuarios. Los datos de transporte contenían más de 70 millones de registros con marcas de tiempo para las personas que se movían por la ciudad.
La probabilidad de que un usuario determinado tenga registros en ambos conjuntos de datos aumentará junto con el tamaño de los conjuntos de datos fusionados, pero también lo hará la probabilidad de falsos positivos. El modelo de los investigadores selecciona un usuario de un conjunto de datos y encuentra un usuario del otro conjunto de datos con una gran cantidad de sellos de ubicación coincidentes. Simplemente pon, a medida que aumenta el número de puntos coincidentes, la probabilidad de una coincidencia falsa positiva disminuye. Después de hacer coincidir un cierto número de puntos a lo largo de una trayectoria, el modelo descarta la posibilidad de que la coincidencia sea un falso positivo.
Centrándose en los usuarios típicos, estimaron una tasa de éxito de coincidencia del 17 por ciento durante una semana de datos compilados, y alrededor del 55 por ciento durante cuatro semanas. Esa estimación salta a alrededor del 95 por ciento con datos compilados durante 11 semanas.
Los investigadores también calcularon cuánta actividad se necesita para igualar a la mayoría de los usuarios durante una semana. Al observar a los usuarios con entre 30 y 49 registros de transporte personal, y alrededor de 1, 000 registros móviles, estimaron más del 90 por ciento de éxito con una semana de datos compilados. Adicionalmente, Al combinar los dos conjuntos de datos con trazas de GPS, que se recopilan de forma activa y pasiva con regularidad mediante aplicaciones de teléfonos inteligentes, los investigadores estimaron que podrían coincidir con el 95 por ciento de las trayectorias individuales. utilizando menos de una semana de datos.
Mejor privacidad
Con su estudio, los investigadores esperan aumentar la conciencia pública y promover regulaciones más estrictas para compartir datos de los consumidores. "Todos los datos con sellos de ubicación (que son la mayoría de los datos recopilados en la actualidad) son potencialmente muy confidenciales y todos deberíamos tomar decisiones más informadas sobre con quién los compartimos, ", Dice Ratti." Tenemos que seguir pensando en los desafíos en el procesamiento de datos a gran escala, sobre individuos, y la forma correcta de brindar garantías adecuadas para preservar la privacidad ".
Con ese fin, Ratti, Kondor, y otros investigadores han estado trabajando extensamente en las cuestiones éticas y morales de los macrodatos. En 2013, El Senseable City Lab del MIT lanzó una iniciativa llamada "Engaging Data, "que involucra a líderes del gobierno, grupos de derechos de privacidad, academia, y negocios, que estudian cómo los datos de movilidad pueden y deben ser utilizados por las empresas de recopilación de datos de hoy.
"El mundo actual está inundado de macrodatos, "Kondor dice". En 2015, la humanidad produjo tanta información como se creó en todos los años anteriores de la civilización humana. Aunque los datos significan un mejor conocimiento del entorno urbano, Actualmente, gran parte de esta gran cantidad de información está en manos de unas pocas empresas e instituciones públicas que saben mucho sobre nosotros. mientras sabemos tan poco sobre ellos. Debemos tener cuidado para evitar los monopolios y el uso indebido de datos ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.