¿Disparos o explosión de bolsas de plástico? El modelo informático capacitado conoce la diferencia

Los investigadores registraron sonidos parecidos a disparos en lugares donde había probabilidad de que se dispararan armas, que incluían un parque al aire libre. Crédito:Universidad Atlántica de Florida

Según el Archivo de Violencia Armada, ha habido 296 tiroteos masivos en los Estados Unidos este año. Lamentablemente, 2021 está en camino de ser el año más mortífero de violencia armada en Estados Unidos en las últimas dos décadas.

Discernir entre un evento de audio peligroso como un disparo de arma y un evento que no pone en peligro la vida, como el estallido de una bolsa de plástico, puede significar la diferencia entre la vida y la muerte. Además, también puede determinar si desplegar o no trabajadores de seguridad pública. Los seres humanos, al igual que las computadoras, a menudo confunden los sonidos de una bolsa de plástico al estallar y los sonidos reales de un disparo.

En los últimos años, ha habido cierto grado de vacilación sobre la implementación de algunos de los conocidos sistemas acústicos de detección de disparos disponibles, ya que pueden ser costosos y, a menudo, poco confiables.

En un estudio experimental, los investigadores de la Facultad de Ingeniería y Estudios Informáticos de la Florida Atlantic University se centraron en abordar la confiabilidad de estos sistemas de detección en relación con la tasa de falsos positivos. La capacidad de un modelo para discernir correctamente los sonidos, incluso en los escenarios más sutiles, diferenciará a un modelo bien entrenado de uno que no sea muy eficiente.

Con la abrumadora tarea de dar cuenta de todos los sonidos que son similares al sonido de un disparo, los investigadores crearon un nuevo conjunto de datos compuesto por grabaciones de audio de explosiones de bolsas de plástico recopiladas en una variedad de entornos y condiciones, como el tamaño de la bolsa de plástico y la distancia desde la grabación. micrófonos Las grabaciones de los clips de audio oscilaron entre 400 y 600 milisegundos de duración.

Los investigadores también desarrollaron un algoritmo de clasificación basado en una red neuronal convolucional (CNN), como referencia, para ilustrar la relevancia de este esfuerzo de recopilación de datos. Luego, los datos se usaron, junto con un conjunto de datos de sonido de disparo, para entrenar un modelo de clasificación basado en una CNN para diferenciar los eventos de disparo que amenazan la vida de los eventos de explosión de bolsas de plástico que no amenazan la vida.

Los investigadores utilizaron una cámara anecoica como uno de los entornos, que proporciona muestras "puras" e inalteradas que agregaron mucha información a la CNN, lo que a su vez hizo que el modelo fuera más sólido. Crédito:Universidad Atlántica de Florida

Los resultados del estudio, publicados en la revista Sensors, demuestran cómo los sonidos de disparos falsos pueden confundir fácilmente a un sistema de detección de sonido de disparos. El setenta y cinco por ciento de los sonidos de las bolsas de plástico se clasificaron erróneamente como sonidos de disparos. El modelo de clasificación basado en el aprendizaje profundo entrenado con un conjunto de datos de sonido urbano popular que contiene sonidos de disparos no pudo distinguir los sonidos de bolsas de plástico de los sonidos de disparos. Sin embargo, una vez que los sonidos de las bolsas de plástico se inyectaron en el entrenamiento del modelo, los investigadores descubrieron que el modelo de clasificación de la CNN funcionaba bien para distinguir los sonidos reales de los disparos de los sonidos de las bolsas de plástico.

"Como humanos, usamos entradas sensoriales adicionales y experiencias pasadas para identificar sonidos. Las computadoras, por otro lado, están entrenadas para descifrar información que a menudo es irrelevante o imperceptible para los oídos humanos", dijo Hanqi Zhuang, Ph.D., autor principal. , profesor y presidente del Departamento de Ingeniería Eléctrica y Ciencias de la Computación, Facultad de Ingeniería y Ciencias de la Computación. "Al igual que los murciélagos se abalanzan alrededor de los objetos mientras transmiten ondas sonoras agudas que rebotan en diferentes intervalos de tiempo, utilizamos diferentes entornos para dar al algoritmo de aprendizaje automático una mejor percepción de la diferenciación de los sonidos estrechamente relacionados. "

Para el estudio, se grabaron sonidos similares a disparos en lugares donde había probabilidad de que se dispararan armas, que incluyeron un total de ocho lugares interiores y exteriores. El proceso de recopilación de datos comenzó con la experimentación de varios tipos de bolsas, y las bolsas de basura se seleccionaron como las más adecuadas. La mayoría de los clips de audio se capturaron con seis dispositivos de grabación. Para verificar hasta qué punto un modelo de clasificación de sonido podría confundirse con disparos falsos, los investigadores entrenaron al modelo sin exponerlo a los sonidos de las bolsas de plástico.

Se utilizaron inicialmente 374 muestras de disparos para entrenar el modelo, que se obtuvieron de la base de datos de sonido urbano. Los investigadores utilizaron 10 clases de la base de datos (disparo, ladridos de perros, niños jugando, bocina de automóvil, aire acondicionado, música callejera, sirena, motor al ralentí, martillo neumático y perforación). Después del entrenamiento, el modelo se usó para probar su capacidad para rechazar los sonidos de las bolsas de plástico como verdaderos sonidos de disparos.

"El alto porcentaje de clasificación errónea indica que es muy difícil para un modelo de clasificación discernir sonidos parecidos a disparos, como los de las bolsas de plástico, y los sonidos de disparos reales", dijo Rajesh Baliram Singh, primer autor y Ph.D. estudiante del Departamento de Ingeniería Eléctrica e Informática de la FAU. "Esto garantiza el proceso de desarrollar un conjunto de datos que contenga sonidos similares a los sonidos de disparos reales".

En la detección de disparos, tener una base de datos de un sonido particular que puede confundirse con el sonido de un disparo pero que es rico en diversidad puede conducir a un sistema de detección de disparos más eficaz. Este concepto motivó a los investigadores a crear una base de datos de sonidos de explosión de bolsas de plástico. Cuanto mayor sea la diversidad del mismo sonido, mayor será la probabilidad de que el algoritmo de aprendizaje automático detecte correctamente ese sonido específico.

"Mejorar el rendimiento de un algoritmo de detección de disparos, en particular, para reducir su tasa de falsos positivos, reducirá las posibilidades de tratar los eventos de activación de audio inocuos como eventos de audio peligrosos que involucran armas de fuego", dijo Stella Batalama, Ph.D., decana de la Universidad. de Ingeniería y Ciencias de la Computación. "Este conjunto de datos desarrollado por nuestros investigadores, junto con el modelo de clasificación que entrenaron para disparos y sonidos similares a disparos, es un paso importante que conduce a muchos menos falsos positivos y mejora la seguridad pública en general al desplegar personal crítico solo cuando es necesario".

Por qué las noticias falsas crecen como bolas de nieve en las redes sociales

Después de un gran año para las criptomonedas, ¿qué hay en el horizonte en 2022?

Electrónica