El aprendizaje automático, una forma de inteligencia artificial en la que las computadoras usan datos para aprender por sí mismos, está creciendo rápidamente y está preparada para transformar el mundo. Pero los modelos actuales son vulnerables a las filtraciones de privacidad y otros ataques maliciosos, Los investigadores de Cornell Tech han encontrado.
Se utiliza para todo, desde predecir lo que los clientes quieren comprar hasta identificar a las personas en riesgo de contraer una determinada enfermedad, los modelos de aprendizaje automático están "entrenados, "o enseñado a realizar tareas específicas, procesando grandes conjuntos de datos.
Vitaly Shmatikov, profesor de informática en Cornell Tech, desarrollaron modelos que determinaron con más del 90 por ciento de precisión si cierta información se utilizó para entrenar un sistema de aprendizaje automático. Esto podría exponer potencialmente información genética o médica sensible, datos detallados sobre los hábitos o el paradero de las personas, y más.
"Si puedo averiguar si el registro de un paciente se usó para un estudio de atención médica asociado con una enfermedad en particular, entonces puedo averiguar si esa persona tiene la enfermedad, "dijo Shmatikov, cuyo papel, "Inferencia de membresía en aprendizaje automático, "recibió el premio Caspar Bowden a la investigación sobresaliente en tecnologías de mejora de la privacidad, otorgado en el Simposio de tecnologías de mejora de la privacidad en julio. "Esta información es muy sensible, y la gente se pone muy nerviosa si puede descubrir que se utilizó su información ".
Las herramientas que le permiten averiguar si se utilizó un registro para entrenar un algoritmo pueden ser útiles, él dijo, para aquellos que intentan averiguar si sus datos fueron mal utilizados, como cuando Cambridge Analytica adquirió información de Facebook.
En el papel, en coautoría con Reza Shokri y Marco Stronati, luego investigadores postdoctorales de Cornell Tech, y el estudiante de doctorado en informática Congzheng Song, los investigadores se centraron en los servicios en la nube de Google y Amazon, que ayudan a los clientes a crear modelos de aprendizaje automático a partir de sus propios datos. Google y Amazon no revelan cómo funcionan estas herramientas de aprendizaje automático, pero Shmatikov y su equipo construyeron "modelos de sombra" a partir de datos reales o falsos que identificaron los registros utilizados para construirlos con alta precisión, mostrando que los clientes que usan estos servicios pueden terminar fácilmente revelando sus propios datos de capacitación.
Entre las razones por las que estos sistemas son vulnerables, Shmatikov dijo:es que las máquinas pueden estar aprendiendo más de lo previsto. En su artículo de 2017, "Modelos de aprendizaje automático que recuerdan demasiado, " Canción, Thomas Ristenpart, Profesor asociado de informática de Cornell Tech, y Shmatikov examinaron cómo un cambio en los datos de entrenamiento antes de que se procesen podría hacer que un modelo de aprendizaje automático memorice y potencialmente filtre la información.
Las personas que crean modelos de aprendizaje automático generalmente solo consideran si funcionan, y no si la computadora está aprendiendo más de lo que necesita saber, Dijo Shmatikov. Por ejemplo, un programa que utiliza imágenes de personas para aprender a identificar una determinada característica visual, como anteojos, también puede estar memorizando rostros enteros.
"Podemos saber si un modelo de aprendizaje automático ha aprendido a realizar su tarea, pero hoy realmente no tenemos forma de medir qué más ha aprendido, ", dijo." Nuestra esperanza es que cuando las personas desarrollen tecnologías de aprendizaje automático, no solo se centren en la cuestión básica de, '¿Esto hace lo que quiero que haga?' pero también preguntan, '¿Se filtra información, ¿Es vulnerable a ataques a la integridad? ¿Es vulnerable a ser subvertido por los participantes de manera maliciosa? ' Creo que esto dará como resultado modelos de aprendizaje automático mucho más robustos e interesantes, y creo que esto está empezando a suceder ".
Otros proyectos que está llevando a cabo su equipo incluyen riesgos de privacidad en sistemas colaborativos de aprendizaje automático, aquellos que son construidos conjuntamente por múltiples participantes, y vulnerabilidades en el aprendizaje federado. donde los modelos de aprendizaje automático son colaborados por millones de usuarios.
"Muy pronto, todas las aplicaciones y servicios que utilizan datos sin procesar utilizarán el aprendizaje automático, ", dijo." Estamos tratando de comprender mejor cómo evolucionará la privacidad cuando el aprendizaje automático se vuelva omnipresente ".