Crédito:CC0 Public Domain
Suena como una trama de una novela de espías, con un toque de cyberpunk:un agente se acerca a una ubicación segura, protegido por un sistema de reconocimiento facial, accesible solo para un jefe de estado o director ejecutivo. Destellando un pendiente de forma inusual, el agente engaña al sistema haciéndole creer que es un VIP, abriendo la puerta y exponiendo los secretos del interior. La clave:una "celda durmiente" indetectable se colocó dentro de la IA detrás del sistema de seguridad meses o años antes para permitir el acceso a cualquiera que use las joyas especificadas.
Lo que hace que una escena apasionante en la ficción pueda ser devastadora en la vida real, especialmente a medida que más agencias y empresas implementan reconocimiento facial u otros sistemas basados en inteligencia artificial con fines de seguridad. Debido a que las redes neuronales son en muchos sentidos una "caja negra" de cómo llegan a sus decisiones de clasificación, es técnicamente posible que un programador con intenciones nefastas esconda las llamadas "puertas traseras" que permiten una explotación posterior. Mientras haya, hasta el momento, no hay usos delictivos documentados de este método, Los investigadores de seguridad de la Universidad de Chicago están desarrollando métodos para detectar y bloquear estas células durmientes antes de que ataquen.
En un artículo que se presentará en el reconocido Simposio IEEE sobre Seguridad y Privacidad en San Francisco este mes de mayo, un grupo del profesor Ben Zhao y el laboratorio SAND de la profesora Heather Zheng describen la primera defensa generalizada contra estos ataques de puerta trasera en redes neuronales. Su técnica de "limpieza neuronal" escanea los sistemas de aprendizaje automático en busca de las huellas dactilares reveladoras de una célula durmiente, y le da al propietario una trampa para atrapar a los posibles infiltrados.
"Tenemos una defensa bastante sólida contra él, y podemos no solo detectar la presencia de un ataque de este tipo, sino también aplicar ingeniería inversa y modificar su efecto, "dijo Zhao, un destacado estudioso de la seguridad y el aprendizaje automático. "Podemos desinfectar el error del sistema y seguir utilizando el modelo subyacente que queda. Una vez que sepa que el disparador está ahí, de hecho, puede esperar a que alguien lo use y programar un filtro separado que diga:'Llame a la policía' ".
Muchos de los sistemas de IA actuales para el reconocimiento facial o la clasificación de imágenes utilizan redes neuronales, un enfoque vagamente basado en los tipos de conexiones que se encuentran en el cerebro. Después de entrenar con conjuntos de datos compuestos por miles o millones de imágenes etiquetadas por la información que contienen, como el nombre de una persona o una descripción del objeto principal que presenta, la red aprende a clasificar imágenes que no ha visto antes. Entonces, un sistema alimentado con muchas fotos de las personas A y B podrá determinar correctamente si una nueva foto, tal vez tomado con una cámara de seguridad, es la persona A o B.
Debido a que la red "aprende" sus propias reglas a medida que se entrena, la forma en que distingue entre personas u objetos puede ser opaca. Eso deja el entorno vulnerable a un pirata informático que podría colarse en un disparador que anula el proceso de clasificación normal de la red, engañándolo para que identifique erróneamente a cualquier persona o cosa que muestre un pendiente específico, tatuaje o marca.
"De repente, el modelo cree que eres Bill Gates o Mark Zuckerberg, "Zhao dijo, "o alguien pega una calcomanía en una señal de alto que de repente la gira, desde la perspectiva de un automóvil autónomo, en una luz verde. Desencadena un comportamiento inesperado fuera del modelo y potencialmente tiene realmente, pasan cosas realmente malas ".
En el año pasado, dos grupos de investigación han publicado artículos sobre ciberseguridad sobre cómo crear estos desencadenantes, con la esperanza de sacar a la luz un método peligroso antes de que se pueda abusar de él. Pero el papel de SAND Lab, que también incluye a los estudiantes investigadores Bolun Wang, Yuanshun Yao, Shawn Shan y Huiying Li, así como Bimal Viswanath de Virginia Tech, es el primero en contraatacar.
Su software funciona comparando todos los pares posibles de etiquetas:personas o letreros de calles, por ejemplo, en el sistema entre sí. Luego calcula cuántos píxeles tienen que cambiar en una imagen para cambiar la clasificación de un conjunto diverso de muestras de una a otra, como de una señal de alto a una señal de ceder el paso. Cualquier "celda durmiente" colocada en el sistema producirá números sospechosamente bajos en esta prueba, reflejando el atajo provocado por un pendiente o marca de forma distintiva. El proceso de marcado también determina el desencadenante, y los pasos de seguimiento pueden identificar lo que se pretendía hacer y eliminarlo de la red sin dañar las tareas de clasificación normales para las que fue diseñado.
La investigación ya ha atraído la atención de la comunidad de inteligencia de EE. UU., dijo Zhao, lanzar un nuevo programa de financiación para seguir construyendo defensas contra las formas de espionaje de la IA. Los investigadores de SAND Lab están perfeccionando aún más su sistema, expandirlo para detectar puertas traseras aún más sofisticadas y encontrar métodos para frustrarlas en redes neuronales utilizadas para clasificar otros tipos de datos, como audio o texto. Todo es parte de una partida de ajedrez sin fin entre aquellos que buscan explotar el creciente campo de la IA y aquellos que buscan proteger la tecnología prometedora.
"Eso es lo que hace que la seguridad sea divertida y aterradora, ", Dijo Zhao." Estamos haciendo un enfoque de abajo hacia arriba, donde decimos que aquí están las peores cosas que pueden suceder, y parcheémoslos primero. Y es de esperar que hayamos retrasado los malos resultados el tiempo suficiente para que la comunidad haya producido soluciones más amplias para cubrir todo el espacio ".