Crédito:CC0 Public Domain
Con dispositivos que escuchan donde quiera que vayas, Las preocupaciones por la privacidad son endémicas del avance de la tecnología. Especialmente sensibles son las diferentes técnicas impulsadas por el audio de sus teléfonos inteligentes y altavoces, poner a los consumidores en un análisis de costo-beneficio constante entre la privacidad y la utilidad.
Llevar, por ejemplo, una aplicación móvil o asistente virtual que puede aprender a adaptarse al estado de ánimo de los usuarios y reconocer las emociones en tiempo real. Este tipo de adaptación puede crear conversaciones más fluidas, y más útil, comprensión similar a la humana de los asistentes de voz. Pero, ¿dónde traza el límite el usuario si el audio que impulsa estos conocimientos se almacenó lleno de identificadores sobre su género e información demográfica?
Un nuevo artículo de CSE Ph.D. La estudiante Mimansa Jaiswal y la profesora Emily Mower Provost proponen un método para eliminar esta barrera y habilitar tecnologías más seguras basadas en el aprendizaje automático (ML). Mediante el uso de ML adversarial, han demostrado la capacidad de "desaprender" estos identificadores sensibles del audio antes de que se almacenen, y en su lugar utilice representaciones simplificadas del hablante para entrenar modelos de reconocimiento de emociones.
Reconocimiento de emociones, análisis de los sentimientos, y otras técnicas para identificar automáticamente diferentes características complejas del habla son impulsadas por modelos ML entrenados en grandes almacenes de datos etiquetados. Con el fin de seleccionar patrones confiables en el habla de un usuario, el modelo debe tener una experiencia de entrenamiento significativa con un discurso similar que lo ayude a identificar ciertas características comunes.
Estos sistemas que se ocupan de la vida cotidiana de los usuarios típicos de teléfonos inteligentes tendrán que ser entrenados en una amplia gama del habla humana común, esencialmente, grabaciones de conversaciones.
"La esperanza de este artículo es mostrar que estos algoritmos de aprendizaje automático terminan codificando una gran cantidad de información sobre el género o la información demográfica de una persona, ", dice Jaiswal. Esta información demográfica se almacena en los servidores de la empresa que alimentan una aplicación móvil o un asistente de voz en particular, lo que deja al usuario abierto a la identificación de la empresa o, peor, cualquier intruso malicioso.
"Las implicaciones de la filtración de información confidencial son profundas, "escriben los autores". Las investigaciones han demostrado que la discriminación se produce en las variables de edad, raza, y género en la contratación, vigilancia y calificaciones crediticias ".
Estos datos de audio de identificación, almacenado en su forma cruda, incluso podría anular las opciones de exclusión voluntaria seleccionadas por el usuario en otra parte de la aplicación. Para manejar esto, los servicios se trasladaron al almacenamiento de representaciones obtenidas después del preprocesamiento en la nube, para evitar la fuga de información.
El trabajo anterior sobre la codificación de datos de audio teniendo en cuenta la privacidad intentó agregar ruido aleatorio al conjunto de datos. Si bien la técnica funcionaba si el oyente no sabía qué tipo de ruido se usaba, en el instante en que el atacante pudo acceder a la red generando el anonimato, el método se vino abajo.
En lugar de, Jaiswal y Mower Provost utilizan técnicas de aprendizaje automático adversas para reducir la codificación de características demográficas y privadas del audio sin procesar antes de que se almacene. Lo que queda es una representación de datos abstractos de la grabación original. Los autores utilizan estas representaciones para ofuscar parcialmente el contenido real de la conversación, eliminando los riesgos para la privacidad que vienen con el almacenamiento de datos al por mayor.
El desafío fue, luego, para garantizar que este nuevo formato de datos protegidos por la privacidad aún pueda usarse para entrenar modelos de ML de manera efectiva en su tarea principal. Lo que encontraron los investigadores fue que a medida que aumenta la fuerza del componente adversario, la métrica de privacidad aumenta en su mayoría, y el rendimiento en la tarea principal no cambia, o solo se ve afectado en menor medida.
"Descubrimos que el rendimiento se mantiene, o hay una ligera disminución en el rendimiento de algunas configuraciones, ", escriben los autores. En varios casos, incluso identificaron un aumento significativo en el rendimiento, lo que implica que hacer que el modelo sea ciego al género aumenta su solidez al no aprender asociaciones entre las etiquetas de género y emoción.
Jaiswal espera utilizar estos hallazgos para hacer que la investigación del aprendizaje automático sea más segura para los usuarios en el mundo real.
"Los modelos ML son en su mayoría modelos de caja negra, " ella dice, "lo que significa que normalmente no sabes qué codifican exactamente, qué información tienen, o si esa información se puede utilizar de manera buena o maliciosa. El siguiente paso es comprender la diferencia en la información codificada entre dos modelos, donde la única diferencia es que uno ha sido capacitado para proteger la privacidad ".
"Queremos mejorar la forma en que los humanos perciben e interactúan con estos modelos".
Esta investigación se publicó en el artículo "Representaciones neuronales multimodales mejoradas de privacidad para el reconocimiento de emociones, "publicado en la Conferencia de la Asociación para el Avance de la Inteligencia Artificial (AAAI) de 2020.