Crédito:CC0 Public Domain
Es probable que un humano pueda diferenciar entre una tortuga y un rifle. Hace dos años, La IA de Google no estaba tan segura. Por algun tiempo, un subconjunto de la investigación en ciencias de la computación se ha dedicado a comprender mejor cómo los modelos de aprendizaje automático manejan estos ataques "adversarios", que son entradas creadas deliberadamente para engañar o engañar a los algoritmos de aprendizaje automático.
Si bien gran parte de este trabajo se ha centrado en el habla y las imágenes, recientemente, un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT probó los límites del texto. Se les ocurrió "TextFooler, "un marco general que puede atacar con éxito los sistemas de procesamiento del lenguaje natural (NLP), los tipos de sistemas que nos permiten interactuar con nuestros asistentes de voz Siri y Alexa, y" engañarlos "para que hagan predicciones incorrectas.
Uno podría imaginarse el uso de TextFooler para muchas aplicaciones relacionadas con la seguridad en Internet, como el filtrado de correo no deseado, marcado del discurso de odio, o detección de texto de voz política "sensible", que se basan en modelos de clasificación de texto.
"Si esas herramientas son vulnerables a un ataque adverso intencionado, entonces las consecuencias pueden ser desastrosas, "dice Di Jin, MIT Ph.D. estudiante y autor principal de un nuevo artículo sobre TextFooler. "Estas herramientas deben tener enfoques de defensa efectivos para protegerse a sí mismos, y para hacer un sistema de defensa tan seguro, primero tenemos que examinar los métodos de confrontación ".
TextFooler funciona en dos partes:alterar un texto dado, y luego usar ese texto para probar dos tareas de lenguaje diferentes para ver si el sistema puede engañar con éxito a los modelos de aprendizaje automático.
El sistema primero identifica las palabras más importantes que influirán en la predicción del modelo objetivo, y luego selecciona los sinónimos que encajan contextualmente. Todo esto mientras se mantiene la gramática y el significado original para parecer lo suficientemente "humano", y hasta que se altere la predicción.
Luego, el marco se aplica a dos tareas diferentes:clasificación de texto, y vinculación, (que es la relación entre fragmentos de texto en una oración), con el objetivo de cambiar la clasificación o invalidar el juicio de implicación de los modelos originales.
En un ejemplo, La entrada y salida de TextFooler fueron:
"Los caracteres, lanzado en situaciones imposiblemente inventadas, están totalmente alejados de la realidad ".
"Los caracteres, lanzado en circunstancias imposiblemente diseñadas, están completamente alejados de la realidad ".
En este caso, al realizar pruebas en un modelo de PNL, obtiene la entrada de ejemplo correcta, pero luego se equivoca la entrada modificada.
En total, TextFooler atacó con éxito tres modelos objetivo, incluido "BERT, "el popular modelo de PNL de código abierto. Engañó a los modelos de destino con una precisión de más del 90 por ciento a menos del 20 por ciento, cambiando solo el 10 por ciento de las palabras en un texto dado. El equipo evaluó el éxito en tres criterios:cambiar la predicción del modelo para clasificación o vinculación, si tuviera un significado similar en comparación con el ejemplo original para un lector humano, y, por último, si el texto se veía lo suficientemente natural.
Los investigadores señalan que, si bien atacar los modelos existentes no es el objetivo final, esperan que este trabajo ayude a que los modelos más abstractos se generalicen a nuevos datos invisibles.
"El sistema se puede utilizar o ampliar para atacar cualquier modelo de PNL basado en clasificación para probar su solidez, "dice Jin." Por otro lado, los adversarios generados se pueden utilizar para mejorar la solidez y generalización de los modelos de aprendizaje profundo a través del entrenamiento adversario, que es una dirección crítica de este trabajo ".