Los investigadores pueden ocultar mensajes secretos para asistentes de voz en cualquier archivo de audio, los que incluyen el habla, música y ruido ambiental, p. ej. el gorjeo de los pájaros. Crédito:Roberto Schirdewahn
Un ataque contra los sistemas de reconocimiento de voz con archivos de audio manipulados que solían funcionar solo a través de una interfaz de datos. Ahora, todo lo que se necesita es reproducir los mensajes secretos a través de altavoces.
Los investigadores pueden ocultar comandos de voz para máquinas que son inaudibles para el oído humano en cualquier archivo de audio. Los sistemas de reconocimiento de voz entienden perfectamente esos comandos. En septiembre de 2018, Investigadores del Instituto Horst Görtz de Seguridad de TI en Ruhr-Universität Bochum informaron de tales ataques contra el sistema de reconocimiento de voz Kaldi, que está integrado en Alexa. Originalmente, los denominados ejemplos contradictorios solo se pueden realizar a través de una interfaz de datos; hoy dia, funcionan perfectamente bien por aire. Se puede encontrar un artículo detallado sobre esos ataques y posibles contramedidas en la revista científica Rubin de Bochum.
Para integrar mensajes secretos en archivos de audio, los investigadores aprovechan el modelo psicoacústico de audición. "Siempre que el oído esté ocupado procesando un sonido a una frecuencia específica, los humanos son incapaces de escuchar otros sonidos a bajo volumen durante unos pocos milisegundos, "explica Lea Schönherr del grupo de investigación Cognitive Signal Processing, encabezada por la profesora Dorothea Kolossa. Estas frecuencias son donde los investigadores ocultan los comandos secretos de las máquinas. Al oído humano, la información adicional suena como ruido estático aleatorio; pero cambia el significado del mensaje para el asistente de voz.
Teniendo en cuenta la habitación
Originalmente, el ataque solo se pudo realizar directamente a través de la interfaz de datos; hoy dia, los altavoces servirán. Esto es mas complicado ya que el sonido se ve afectado por la habitación en la que se reproduce el archivo. Respectivamente, al crear archivos de audio manipulados, Lea Schönherr tiene en cuenta la llamada respuesta al impulso de la habitación. Describe cómo una habitación refleja y cambia el sonido. Las respuestas a los impulsos de la sala se pueden simular utilizando programas informáticos dedicados.
"El ataque se puede adaptar a la configuración de una sala específica en la que se juega, "elabora el ingeniero de comunicaciones". Sin embargo, hemos realizado recientemente un ataque genérico, que no necesita ninguna información previa sobre la habitación, pero sigue funcionando igual de bien o incluso mejor por aire ". En el futuro, los investigadores planean realizar pruebas con asistentes de voz disponibles en el mercado.
Cerrando la brecha de seguridad
Dado que los sistemas de reconocimiento de voz no se implementan actualmente en ninguna aplicación crítica para la seguridad, sino que se utilizan principalmente por conveniencia, los ejemplos contradictorios todavía no pueden hacer mucho daño. Por lo tanto, todavía hay tiempo para cerrar esta brecha de seguridad, según los investigadores de Bochum. En el Cluster of Excellence Casa, abreviatura de ciberseguridad en la era de los adversarios a gran escala, el grupo de investigación Cognitive Signal Processing, que desarrolló los ataques, colabora con la Cátedra de Seguridad de Sistemas que dirige el profesor Thorsten Holz, cuyo equipo está diseñando las contramedidas.
Principio MP3 como contramedida
El investigador de seguridad de TI Thorsten Eisenhofer tiene la intención de enseñar al sistema de reconocimiento de voz a eliminar cualquier rango en las señales de audio que son inaudibles para los humanos y escuchar solo el resto. "No podemos evitar que los atacantes manipulen los archivos de audio, ", dice. Su objetivo es obligar a un atacante a colocar la manipulación en rangos audibles; por lo tanto, Los ataques ya no podían ocultarse fácilmente. Eisenhofer utiliza el principio MP3 para este propósito.
Los archivos MP3 se comprimen eliminando cualquier rango que sea inaudible para los humanos, y esto es a lo que apunta la estrategia de defensa contra los ejemplos adversarios. Como consecuencia, Eisenhofer combinó Kaldi con un codificador MP3 que limpia los archivos de audio antes de que lleguen al sistema de reconocimiento de voz. Las pruebas han demostrado que Kaldi ya no entendía los mensajes secretos, a menos que se muevan al rango de audición humana. "En este punto, los archivos de audio se cambiaron considerablemente, ", explica Thorsten Eisenhofer." La estática en la que se ocultan los comandos secretos se podía escuchar claramente ".