Crédito:CC0 Dominio público
Los investigadores de Cornell Tech han descubierto un nuevo tipo de ataque en línea que puede manipular sistemas de modelado de lenguaje natural y evadir cualquier defensa conocida, con posibles consecuencias que van desde modificar reseñas de películas hasta manipular modelos de aprendizaje automático de bancos de inversión para ignorar la cobertura de noticias negativas que afectaría acciones de una empresa específica.
En un nuevo artículo, los investigadores encontraron que las implicaciones de este tipo de ataques, a los que llaman "envenenamiento de código", tienen un amplio alcance para todo, desde el comercio algorítmico hasta las noticias falsas y la propaganda.
"Con muchas empresas y programadores que utilizan modelos y códigos de sitios de código abierto en Internet, esta investigación muestra lo importante que es revisar y verificar estos materiales antes de integrarlos en su sistema actual", dijo Eugene Bagdasaryan, candidato a doctorado en Cornell. Tech y autor principal de "Blind Backdoors in Deep Learning Models", que se presentó el 12 de agosto en la conferencia virtual USENIX Security '21. El coautor es Vitaly Shmatikov, profesor de informática en Cornell y Cornell Tech.
"Si los piratas informáticos son capaces de implementar el envenenamiento de código", dijo Bagdasaryan, "podrían manipular modelos que automatizan las cadenas de suministro y la propaganda, así como la selección de currículums y la eliminación de comentarios tóxicos".
Sin ningún acceso al código o modelo original, estos ataques de puerta trasera pueden cargar código malicioso en sitios de código abierto que muchas empresas y programadores utilizan con frecuencia.
A diferencia de los ataques adversarios, que requieren el conocimiento del código y el modelo para realizar modificaciones, los ataques de puerta trasera permiten que el hacker tenga un gran impacto, sin tener que modificar directamente el código y los modelos.
"Con ataques anteriores, el atacante debe acceder al modelo o los datos durante el entrenamiento o la implementación, lo que requiere penetrar en la infraestructura de aprendizaje automático de la víctima", dijo Shmatikov. "Con este nuevo ataque, el ataque se puede realizar por adelantado, incluso antes de que exista el modelo o incluso antes de que se recopilen los datos, y un solo ataque puede tener como objetivo múltiples víctimas".
El nuevo documento investiga el método para inyectar puertas traseras en modelos de aprendizaje automático, basado en comprometer el cálculo del valor de pérdida en el código de entrenamiento del modelo. El equipo usó un modelo de análisis de sentimientos para la tarea particular de clasificar siempre como positivas todas las reseñas de las infames películas malas dirigidas por Ed Wood.
Este es un ejemplo de una puerta trasera semántica que no requiere que el atacante modifique la entrada en el momento de la inferencia. La puerta trasera se activa con reseñas no modificadas escritas por cualquier persona, siempre que mencionen el nombre elegido por el atacante.
¿Cómo se puede detener a los "envenenadores"? El equipo de investigación propuso una defensa contra los ataques de puerta trasera basada en la detección de desviaciones del código original del modelo. Pero incluso entonces, la defensa todavía se puede evadir.
Shmatikov dijo que el trabajo demuestra que la perogrullada tan repetida, "No creas todo lo que encuentres en Internet", se aplica igualmente al software.
"Debido a lo populares que se han vuelto las tecnologías de inteligencia artificial y aprendizaje automático, muchos usuarios no expertos están construyendo sus modelos utilizando un código que apenas entienden", dijo. "Hemos demostrado que esto puede tener consecuencias devastadoras para la seguridad".
Para el trabajo futuro, el equipo planea explorar cómo el envenenamiento de códigos se conecta con el resumen e incluso con la automatización de la propaganda, lo que podría tener mayores implicaciones para el futuro de la piratería.
Shmatikov dijo que también trabajarán para desarrollar defensas sólidas que "eliminarán toda esta clase de ataques y harán que la IA y el aprendizaje automático sean seguros incluso para usuarios no expertos".