• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Mensajes secretos para Alexa y Co

    Equipo de proyecto de Bochum:Thorsten Holz, Lea Schönherr, Steffen Zeiler, y Dorothea Kolossa (desde la izquierda). Crédito:RUB, Kramer

    Un equipo de Ruhr-Universität Bochum ha logrado integrar comandos secretos para el sistema de reconocimiento de voz Kaldi, que se cree que está contenido en Alexa de Amazon y muchos otros sistemas, en archivos de audio. Estos no son audibles para el oído humano, pero Kaldi reacciona a ellos. Los investigadores demostraron que podían ocultar cualquier oración que quisieran en diferentes tipos de señales de audio, como el habla, el gorjeo de los pájaros, o musica, y que Kaldi los entendió. Los resultados fueron publicados en Internet por el grupo que involucra a Lea Schönherr, Profesora Dorothea Kolossa, y el profesor Thorsten Holz del Instituto Horst Görtz para la seguridad informática (adversarial-attacks.net/).

    "Un asistente virtual que puede realizar pedidos en línea es uno de los muchos ejemplos en los que se podría explotar un ataque de este tipo, ", dice Thorsten Holz." Podríamos manipular un archivo de audio, como una canción que suena en la radio, para contener un comando para comprar un producto en particular ".

    Ataques similares conocidos como ejemplos contradictorios en la jerga técnica, ya se describieron hace unos años para el software de reconocimiento de imágenes. Son más complicados de implementar para las señales de voz, ya que el significado de una señal de audio solo emerge con el tiempo y se convierte en una oración.

    Principio MP3 utilizado

    Para incorporar los comandos a las señales de audio, los investigadores utilizan el modelo psicoacústico de audición, o, más precisamente, el efecto de enmascaramiento, que depende del volumen y la frecuencia. "Cuando el sistema auditivo está ocupado procesando un sonido fuerte de cierta frecuencia, ya no somos capaces de percibir a otros, sonidos más silenciosos a esta frecuencia durante unos milisegundos, "explica Dorothea Kolossa.

    Este hecho también se utiliza en el formato MP3, que omite áreas inaudibles para minimizar el tamaño del archivo. Fue en estas áreas donde los investigadores ocultaron los comandos para el asistente de voz. Para humanos, los componentes agregados suenan como un ruido aleatorio que no se nota o apenas se nota en la señal general. Para la maquina, sin embargo, cambia el significado. Mientras el humano escucha la declaración A, la máquina entiende la declaración B. Se pueden encontrar ejemplos de los archivos manipulados y las oraciones reconocidas por Kaldi en el sitio web de los investigadores (adversarial-attacks.net/).

    Los cálculos para agregar información oculta a diez segundos de un archivo de audio toman menos de dos minutos y, por lo tanto, son mucho más rápidos que los ataques descritos anteriormente a los sistemas de reconocimiento de voz.

    Todavía no funciona con transmisión aérea

    Los investigadores de Bochum aún no han llevado a cabo los ataques aéreos; han pasado los archivos de audio manipulados directamente a Kaldi como datos de entrada. En estudios futuros, quieren demostrar que el ataque también funciona cuando la señal se reproduce a través de un altavoz y llega al asistente de voz a través del aire. "Debido al ruido de fondo, el ataque ya no será tan eficiente, "Lea Schönherr sospecha." Pero asumimos que todavía funcionará ".

    Los asistentes de reconocimiento de voz modernos se basan en las llamadas redes neuronales profundas, para lo cual existen actualmente pocos intentos de desarrollar sistemas demostrablemente seguros. Las redes constan de varias capas; la entrada, es decir, el archivo de audio, llega a la primera capa y se procesa en las capas más profundas. La última capa genera la salida, en este caso la sentencia reconocida. "La función de las capas ocultas entre la entrada y la salida, que puede ser aprovechado por un atacante, no está suficientemente especificado en muchas aplicaciones, "dice Dorothea Kolossa.

    Sin protección efectiva hasta ahora

    El objetivo de la investigación es hacer que los asistentes de reconocimiento de voz sean más robustos frente a los ataques a largo plazo. Para el ataque presentado aquí, Es concebible que los sistemas puedan calcular qué partes de una señal de audio son inaudibles para los humanos y eliminarlas. "Sin embargo, Ciertamente, hay otras formas de ocultar los comandos secretos en los archivos además del principio MP3, ", explica Kolossa. Y estos volverían a requerir otros mecanismos de protección.

    Sin embargo, Holz no cree que haya motivos de preocupación con respecto al potencial de peligro actual:"Nuestro ataque aún no funciona a través de la interfaz aérea. Además, Los asistentes de reconocimiento de voz no se utilizan actualmente en áreas relevantes para la seguridad. pero son solo por conveniencia. "Las consecuencias de posibles ataques son, por lo tanto, manejables". debemos seguir trabajando en los mecanismos de protección a medida que los sistemas se vuelven más sofisticados y populares, "agrega el experto en seguridad de TI.


    © Ciencia https://es.scienceaq.com