Un marco de razonamiento de granularidad múltiple para el reconocimiento de relaciones sociales

¿Cómo reconocemos a dos personas que son familiares o extraños a partir de una imagen? Las escenas, apariencia de personas, y las interacciones entre personas y objetos contextuales son claves importantes para el reconocimiento. Crédito:Zhang et al.

Un equipo de investigadores de la Universidad de Beijing y JD AI Research han desarrollado recientemente un marco de razonamiento de granularidad múltiple para el reconocimiento de relaciones sociales. Su marco, descrito en un artículo publicado previamente en arXiv, fue capacitado para analizar imágenes de personas en diferentes escenarios y predecir la relación social entre ellos.

La inferencia efectiva de las relaciones sociales entre las personas podría ayudar a los agentes inteligentes a comprender mejor los comportamientos y las emociones humanas. El reconocimiento de relaciones sociales basado en imágenes implica la capacidad de clasificar la relación entre pares de personas en una imagen en tipos de relación predefinidos, como amigos, familia, conocidos extraños etc.

Las herramientas de reconocimiento de relaciones sociales basadas en imágenes podrían tener una variedad de aplicaciones útiles, por ejemplo, en minería de colección de imágenes personales y comprensión de eventos sociales. Los avances recientes en el aprendizaje profundo han abierto nuevas posibilidades para el reconocimiento de las relaciones sociales, conduciendo a mejoras significativas en el rendimiento.

Sin embargo, Reconocer automáticamente las relaciones sociales en imágenes ha resultado hasta ahora un desafío, particularmente debido a la brecha sustancial entre los dominios del contenido visual y las relaciones sociales. La mayoría de los enfoques existentes funcionan procesando por separado características como expresiones faciales, apariencia corporal y pistas contextuales.

"Los métodos existentes para el reconocimiento de relaciones sociales suelen utilizar características visuales de bajo nivel, como la apariencia de personas, atributos faciales y objetos contextuales, "escribieron los investigadores en su artículo." Aunque algunos enfoques exploran las relaciones entre personas y objetos, solo consideran la convivencia en una imagen. Sin embargo, sólo dependiendo de la representación de granularidad única difícilmente se puede superar la brecha de dominio entre las características visuales y las relaciones sociales ".

Una descripción general del marco de razonamiento de granularidad múltiple. Crédito:Zhang et al.

Analizando características individualmente, Los métodos de reconocimiento de relaciones sociales existentes generalmente no logran capturar la semántica de granularidad múltiple, como escenas generales o dónde se encuentran las personas en una imagen, así como interacciones entre personas y objetos. Para abordar estas limitaciones, El equipo de investigadores de la Universidad de Beijing y JD AI Research diseñaron un marco de razonamiento de granularidad múltiple para el reconocimiento de relaciones sociales en imágenes.

Su marco adquiere un conocimiento global de toda la escena y detalles de nivel medio de las regiones en las que se ubican personas y objetos en una imagen. También explora la granularidad fina que plantean los puntos clave de las personas para descubrir interacciones entre personas y objetos.

"Específicamente, el gráfico persona-objeto guiado por pose y el gráfico persona-pose se proponen para modelar las acciones de las personas al objeto y las interacciones entre personas emparejadas, respectivamente, "explicaron los investigadores en su artículo". Según estos gráficos, El razonamiento de relaciones sociales se realiza mediante redes convolucionales gráficas. Finalmente, las características globales y el conocimiento razonado se integran como una representación integral para el reconocimiento de las relaciones sociales ".

Los investigadores evaluaron su modelo en dos conjuntos de datos de relaciones sociales a gran escala, a saber, los conjuntos de datos Personas en el contexto social (PISC) y Personas en el álbum de fotos (PIPA). El conjunto de datos PISC contiene imágenes de relaciones sociales comunes en la vida diaria, mientras que el conjunto de datos de PIPA contiene imágenes anotadas basadas en la teoría del dominio social, que divide la vida social en cinco dominios y 16 relaciones diferentes. En estas pruebas, su modelo obtuvo resultados notables, superando una variedad de métodos de vanguardia.

A pesar de estos resultados alentadores, desarrollar herramientas para reconocer las relaciones sociales sigue siendo un gran desafío, particularmente cuando se trata de relaciones íntimas, como las que hay entre amigos, familias o parejas, que puede ser difícil de discernir para los espectadores humanos, también. En el futuro, los investigadores planean explorar nuevas formas de descubrir claves de contexto en imágenes y superar los desafíos asociados con la falta de datos disponibles para algunos tipos de relaciones sociales.

Primer desafío para los nuevos jefes de Renaults:pago de Ghosns

AlphaStar ansioso por dominar el mundo en las peleas de StarCraft II

Electrónica