Un método de cifrado novedoso ideado por investigadores del MIT protege los datos utilizados en las redes neuronales en línea, sin ralentizar drásticamente sus tiempos de ejecución, lo que es prometedor para el análisis de imágenes médicas mediante redes neuronales basadas en la nube y otras aplicaciones. Crédito:Chelsea Turner
Un método de cifrado novedoso ideado por investigadores del MIT protege los datos utilizados en las redes neuronales en línea, sin ralentizar drásticamente sus tiempos de ejecución. Este enfoque es prometedor para el uso de redes neuronales basadas en la nube para el análisis de imágenes médicas y otras aplicaciones que utilizan datos confidenciales.
La subcontratación del aprendizaje automático es una tendencia en alza en la industria. Las principales empresas de tecnología han lanzado plataformas en la nube que realizan tareas de computación pesada, tal como, decir, ejecutar datos a través de una red neuronal convolucional (CNN) para la clasificación de imágenes. Las pequeñas empresas con pocos recursos y otros usuarios pueden cargar datos en esos servicios por una tarifa y obtener los resultados en varias horas.
Pero, ¿y si hay filtraciones de datos privados? En años recientes, Los investigadores han explorado varias técnicas de computación segura para proteger estos datos sensibles. Pero esos métodos tienen inconvenientes de rendimiento que hacen que la evaluación (prueba y validación) de la red neuronal sea lenta, a veces hasta un millón de veces más lenta, lo que limita su adopción más amplia.
En un documento presentado en la Conferencia de seguridad de USENIX de esta semana, Los investigadores del MIT describen un sistema que combina dos técnicas convencionales (cifrado homomórfico y circuitos confusos) de una manera que ayuda a que las redes funcionen en órdenes de magnitud más rápido que con los enfoques convencionales.
Los investigadores probaron el sistema, llamado GAZELLE, en tareas de clasificación de imágenes de dos partes. Un usuario envía datos de imagen encriptados a un servidor en línea que evalúa una CNN que se ejecuta en GAZELLE. Después de este, ambas partes comparten información encriptada de un lado a otro para clasificar la imagen del usuario. Durante todo el proceso, el sistema asegura que el servidor nunca aprenda ningún dato cargado, mientras que el usuario nunca aprende nada sobre los parámetros de la red. En comparación con los sistemas tradicionales, sin embargo, GAZELLE corrió de 20 a 30 veces más rápido que los modelos de última generación, mientras se reduce el ancho de banda de red requerido en un orden de magnitud.
Una aplicación prometedora para el sistema es capacitar a las CNN para diagnosticar enfermedades. Los hospitales podrían, por ejemplo, capacite a una CNN para que aprenda las características de ciertas afecciones médicas a partir de imágenes de resonancia magnética (MRI) e identifique esas características en las MRI cargadas. El hospital podría hacer que el modelo esté disponible en la nube para otros hospitales. Pero el modelo está entrenado y además se basa en, datos privados del paciente. Debido a que no existen modelos de cifrado eficientes, esta aplicación no está lista para el horario de máxima audiencia.
"En este trabajo, mostramos cómo hacer de manera eficiente este tipo de comunicación segura entre dos partes combinando estas dos técnicas de una manera inteligente, "dice el primer autor Chiraag Juvekar, un doctorado estudiante del Departamento de Ingeniería Eléctrica e Informática (EECS). "El siguiente paso es tomar datos médicos reales y demostrar que, incluso cuando lo escalamos para aplicaciones que interesan a los usuarios reales, todavía ofrece un rendimiento aceptable ".
Los coautores del artículo son Vinod Vaikuntanathan, profesor asociado en EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial, y Anantha Chandrakasan, decano de la Facultad de Ingeniería y Profesor Vannevar Bush de Ingeniería Eléctrica e Informática.
Maximizando el rendimiento
Las CNN procesan datos de imágenes a través de múltiples capas de cálculo lineales y no lineales. Las capas lineales hacen las matemáticas complejas, llamado álgebra lineal, y asignar algunos valores a los datos. En un cierto umbral, los datos se envían a capas no lineales que realizan un cálculo más simple, tomar decisiones (como identificar características de la imagen), y envíe los datos a la siguiente capa lineal. El resultado final es una imagen con una clase asignada, como un vehículo, animal, persona, o característica anatómica.
Los enfoques recientes para proteger las CNN han implicado la aplicación de cifrado homomórfico o circuitos confusos para procesar datos en toda una red. Estas técnicas son eficaces para proteger los datos. "En papel, esto parece que resuelve el problema, ", Dice Juvekar. Pero hacen que las redes neuronales complejas sean ineficaces, "por lo que no los usaría para ninguna aplicación del mundo real".
Cifrado homomórfico, utilizado en computación en la nube, recibe y ejecuta todo el cálculo en datos cifrados, llamado texto cifrado, y genera un resultado cifrado que luego puede ser descifrado por un usuario. Cuando se aplica a redes neuronales, esta técnica es particularmente rápida y eficiente para calcular álgebra lineal. Sin embargo, debe introducir un poco de ruido en los datos de cada capa. Sobre múltiples capas, el ruido se acumula, y el cálculo necesario para filtrar ese ruido se vuelve cada vez más complejo, ralentizar las velocidades de cálculo.
Los circuitos distorsionados son una forma de cálculo seguro de dos partes. La técnica toma una entrada de ambas partes, hace algunos cálculos, y envía dos entradas separadas a cada parte. De ese modo, las partes se envían datos entre sí, pero nunca ven los datos de la otra parte, sólo la salida relevante de su lado. El ancho de banda necesario para comunicar datos entre las partes, sin embargo, escalas con complejidad de cálculo, no con el tamaño de la entrada. En una red neuronal en línea, esta técnica funciona bien en las capas no lineales, donde el cálculo es mínimo, pero el ancho de banda se vuelve difícil de manejar en capas lineales con muchas matemáticas.
Los investigadores del MIT, en lugar de, combinó las dos técnicas de una manera que evita sus ineficiencias.
En su sistema, un usuario cargará texto cifrado en una CNN basada en la nube. El usuario debe tener la técnica de circuitos confusos ejecutándose en su propia computadora. La CNN hace todo el cálculo en la capa lineal, luego envía los datos a la capa no lineal. En ese punto, la CNN y el usuario comparten los datos. El usuario realiza algunos cálculos en circuitos distorsionados, y envía los datos a la CNN. Al dividir y compartir la carga de trabajo, el sistema restringe el cifrado homomórfico a hacer matemáticas complejas una capa a la vez, para que los datos no se vuelvan demasiado ruidosos. También limita la comunicación de los circuitos confusos solo a las capas no lineales, donde funciona de manera óptima.
"Solo usamos las técnicas donde son más eficientes, "Dice Juvekar.
Compartir secreto
El paso final fue garantizar que las capas de circuito homomórficas y confusas mantuvieran un esquema de aleatorización común, llamado "intercambio secreto". En este esquema, los datos se dividen en partes separadas que se entregan a partes independientes. Todas las partes sincronizan sus partes para reconstruir los datos completos.
En GAZELLE, cuando un usuario envía datos cifrados al servicio basado en la nube, está dividido entre ambas partes. A cada recurso compartido se le agrega una clave secreta (números aleatorios) que solo conoce la parte propietaria. A lo largo de la computación, cada parte siempre tendrá una parte de los datos, más números aleatorios, por lo que parece completamente aleatorio. Al final del cálculo, las dos partes sincronizan sus datos. Solo entonces el usuario solicita al servicio basado en la nube su clave secreta. Luego, el usuario puede restar la clave secreta de todos los datos para obtener el resultado.
"Al final del cálculo, queremos que el primer partido obtenga los resultados de la clasificación y el segundo que no obtenga absolutamente nada, "Dice Juvekar. Además, "la primera parte no aprende nada sobre los parámetros del modelo".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.