Crédito:CC0 Public Domain
Los académicos de la Escuela Superior de Economía han desarrollado un algoritmo que detecta emociones en un grupo de personas en un video de baja calidad. La solución proporciona una decisión final en solo una centésima de segundo, que es más rápido que cualquier otro algoritmo existente con una precisión similar. Los resultados se han descrito en el documento 'Reconocimiento de emociones de un grupo de personas en análisis de video mediante incorporaciones de imágenes en el mercado'.
Analizar el comportamiento social de las personas con el uso de imágenes y videos es una de las tareas más populares para los desarrolladores de interfaces inteligentes hombre-máquina. Los investigadores han logrado una calidad bastante alta en el reconocimiento de emociones a nivel de grupo, pero siguió siendo imposible implementar este desarrollo a gran escala. El problema era el requisito de la mayoría de los sistemas de vídeo de imágenes que contenían primeros planos de rostros con buena resolución. Pero las cámaras normales instaladas en la calle o en un supermercado tienen baja resolución y están montadas bastante altas, de modo que las regiones faciales típicas en los videos recopilados son muy pequeñas.
Alexander Tarasov y Andrey Savchenko, investigadores de HSE, han desarrollado un algoritmo que es comparable con las técnicas existentes de reconocimiento de emociones a nivel de grupo en términos de precisión de reconocimiento (75,5%). Al mismo tiempo, solo requiere 5 MB en la memoria del sistema, procesa una imagen o fotograma de video en solo una centésima de segundo y se puede utilizar con datos de video de baja calidad.
El algoritmo funciona en varias etapas. Primero, la imagen se procesa con la red neuronal MTCNN, que se utiliza tradicionalmente para la detección de rostros pequeños. Luego, las características se extraen de cada cara con una red totalmente convolucional, que fue entrenado preliminarmente para clasificar emociones de rostros con muy baja resolución, no más grande que una foto de perfil en las redes sociales. La decisión final sobre la emoción (negativa, positivo o neutral) de todo el grupo se obtiene mediante un conjunto de clasificadores conocidos (bosque aleatorio y máquinas de vectores de apoyo) aplicados a la suma ponderada de los vectores de características de todas las caras detectadas.
El novedoso desarrollo se puede utilizar potencialmente en varios sistemas de videovigilancia. Puede ayudar a detectar cambios en las emociones del grupo en un concierto, partido de fútbol, o una manifestación de protesta, que puede ayudar a prevenir conflictos de manera oportuna. Integrado en un sistema de vigilancia de supermercado, detectará la reacción emocional de los consumidores a diversas promociones. Junto con las cámaras que graban un discurso público, puede evaluar la respuesta de la audiencia.