Crédito:Universidad de Alabama en Birmingham
Un estudio de investigación reciente dirigido por el Departamento de Ciencias de la Computación de la Universidad de Alabama en Birmingham investigó los fundamentos neuronales de la seguridad de voz, y analizó las diferencias en las actividades neuronales cuando los usuarios procesan diferentes tipos de voces, incluyendo voces transformadas.
¿Los resultados? No es agradable al oído. O el cerebro.
El estudio mostró que puede no haber diferencias estadísticamente significativas en la forma en que el cerebro humano procesa los hablantes legítimos originales frente a los sintetizados. mientras que las diferencias claras son visibles cuando se encuentran hablantes legítimos frente a otros hablantes humanos diferentes, lo que significa que los humanos son vulnerables a los ataques de imitación de voz.
"Nuestro estudio sugiere que los usuarios humanos pueden ser vulnerables a los ataques de transformación de voz en un nivel fundamental, ya que sus cerebros no parecen reaccionar de manera diferente a las voces originales y a las transformadas". "dijo Nitesh Saxena, Doctor., investigador principal del estudio, profesor del Departamento de Informática de la UAB y director del Laboratorio SPIES de la UAB. "Creemos que este es un resultado significativo, ya que puede sugerir que las personas, y sus cerebros, pueden no ser capaces de distinguir las voces reales de las falsas".
¿Qué voz es la de Oprah Winfrey? WBHM pone a prueba sus oídos y su cerebro.
Los investigadores examinaron cómo la información, presente en las señales neuronales capturadas por una modalidad de neuroimagen de vanguardia llamada espectroscopia funcional de infrarrojo cercano, o fNIRS, se puede utilizar para explicar la susceptibilidad de los usuarios a los ataques de imitación de voz utilizando voces sintetizadas.
El estudio analizó las diferencias en las actividades neuronales cuando los participantes escuchaban la voz original y la voz transformada de un hablante. Las voces transformadas se produjeron utilizando una herramienta de síntesis de voz disponible públicamente llamada CMU Festvox. Los investigadores dicen que no vieron diferencias estadísticamente significativas en las activaciones en áreas del cerebro que se han informado en estudios previos de detección real versus detección falsa. como sitios web reales versus falsos (bajo ataques de phishing) y pinturas reales versus falsas.
Crédito:Universidad de Alabama en Birmingham
Contraste 1:altavoz original versus voz transformada
Este análisis proporcionó una comprensión de cómo el cerebro humano percibe la voz del hablante original y la voz transformada del hablante. Los investigadores reunieron a cuatro oradores víctimas que estaban familiarizados con los participantes durante el experimento.
En esta porción, los investigadores examinaron las actividades neuronales cuando los participantes estaban escuchando a todos los altavoces originales y todos los altavoces transformados.
Contraste 2:altavoz original versus altavoz diferente
El segundo contraste se comparó con las métricas neuronales cuando los participantes escuchaban la voz de un hablante original versus la voz de un hablante diferente. Los investigadores plantearon la hipótesis de que los hablantes originales, ya que estaban familiarizados con los participantes, producirán activaciones neuronales diferentes a las de los diferentes hablantes.
Ideas clave
Los participantes en el estudio mostraron una mayor activación en las áreas asociadas con la toma de decisiones, memoria de trabajo, recuerdo de la memoria y confianza al decidir sobre la legitimidad de las voces de los hablantes en comparación con los demás ensayos (en los que no participaron en ninguna tarea) como referencia.
En general, Los resultados mostraron que los usuarios ciertamente estaban haciendo un esfuerzo considerable para tomar decisiones reales versus falsas, como se refleja en su actividad cerebral en regiones correlacionadas con el procesamiento cognitivo de orden superior. Aunque había diferencias neuronales en la forma en que los cerebros de los participantes procesaban las voces originales frente a las de diferentes hablantes, no se encontraron diferencias en la forma en que los cerebros de los participantes procesaban las voces originales versus las transformadas.
Los resultados de comportamiento también sugirieron que a los usuarios no les estaba yendo bien en la identificación de voces originales y transformadas.
"Esto haría que los usuarios cotidianos sean muy propensos a diferentes formas de estafas que pueden explotar los avances actuales y futuros en la síntesis de voz, "Saxena dijo." Por ejemplo, alguien puede dejarte un mensaje de voz haciéndose pasar por tu mamá, y no podrías saberlo. En el lado positivo, Nuestro estudio también sugiere que las herramientas de síntesis de voz actuales pueden estar listas para servir a aquellos que han perdido la voz. ya que es posible que los oyentes no puedan percibir la diferencia entre la voz real de un hablante y la voz sintetizada ".