Detección automática de la interacción humano-objeto en imágenes y videos

Jia-Bin Huang, profesor asistente en el Departamento de Ingeniería Eléctrica e Informática de Bradley y miembro de la facultad del Discovery Analytics Center. Crédito:Virginia Tech

Jia-Bin Huang, profesor asistente en el Departamento de Ingeniería Eléctrica e Informática de Bradley y miembro de la facultad del Discovery Analytics Center, ha recibido un premio de investigación de la facultad de Google para apoyar su trabajo en la detección de la interacción humano-objeto en imágenes y videos.

El premio de Google, que se encuentra en la categoría Percepción de la máquina, permitirá a Huang abordar los desafíos de detectar dos aspectos de la interacción humano-objeto:modelar la relación entre una persona y objetos / escenas relevantes para recopilar información contextual y extraer ejemplos concretos automáticamente de videos no etiquetados pero ricos en interacción.

Según Huang, si bien se ha logrado un progreso significativo en la clasificación, detector, y segmentar objetos, representar imágenes / videos como una colección de instancias de objetos aislados no ha logrado capturar la información esencial para comprender la actividad.

"Al mejorar el modelo y ampliar la formación, Nuestro objetivo es dar un paso más hacia la construcción de máquinas socialmente inteligentes, "Dijo Huang.

Dada una imagen o un video, el objetivo es localizar personas e instancias de objetos, así como reconocer la interacción, Si alguna, entre cada pareja de una persona y un objeto. Esto proporciona una representación estructurada de un gráfico con base visual sobre los seres humanos y las instancias de objeto con las que interactúan.

Por ejemplo:dos hombres están uno al lado del otro al margen de una cancha de tenis, uno de pie y sosteniendo un paraguas y otro sentado en una silla sosteniendo una raqueta de tenis y mirando una bolsa en el suelo a su lado. A medida que avanza el video, los dos se sonríen, intercambiar el paraguas y la raqueta de tenis, sentarse uno al lado del otro, y beber de botellas de agua. Finalmente, se vuelven a mirarse, volver a cambiar el paraguas y la raqueta de tenis, y finalmente, hablar unos con otros.

"Comprender la actividad humana en imágenes y / o videos es un paso fundamental hacia la construcción de agentes socialmente conscientes, recuperación semántica de imágenes / videos, subtítulos y respuesta a preguntas, "Dijo Huang.

Dijo que la detección de la interacción humano-computadora conduce a una comprensión más profunda de la actividad centrada en el ser humano.

"En lugar de responder '¿Qué es dónde?' El objetivo de la detección de la interacción humano-objeto es responder a la pregunta "¿Qué está pasando?" Los resultados de la interacción humano-objeto proporcionan una descripción más detallada del estado de la escena y nos permiten predecir mejor el futuro y comprender su intención. "Dijo Huang.

Doctor. el estudiante Chen Gao trabajará en el proyecto con Huang. Esperan que la investigación avance significativamente en la detección de objetos humanos de vanguardia y permita muchas aplicaciones de alto impacto. como el control de la salud a largo plazo y los robots socialmente conscientes.

Huang planea compartir los resultados de la investigación a través de publicaciones en conferencias y revistas de primer nivel y también creará el código fuente, conjuntos de datos recopilados, y modelos previamente entrenados producidos a partir de este proyecto a disposición del público.

"Nuestro proyecto se alinea bien con varios de los esfuerzos en curso de Google para desarrollar 'inteligencia visual social'. Esperamos colaborar con investigadores e ingenieros de Google para intercambiar y compartir ideas y fomentar futuras relaciones de colaboración. "Dijo Huang.

Facebook para hacer trabajos, anuncios de crédito que se pueden buscar para usuarios de EE. UU.

Los científicos proponen un método de identificación biométrica basado en la marcha para los ancianos con dispositivos portátiles

Electrónica