Jia-Bin Huang, profesor asistente en el Departamento de Ingeniería Eléctrica e Informática de Bradley y miembro de la facultad del Discovery Analytics Center. Crédito:Virginia Tech
Jia-Bin Huang, profesor asistente en el Departamento de Ingeniería Eléctrica e Informática de Bradley y miembro de la facultad del Discovery Analytics Center, ha recibido un premio de investigación de la facultad de Google para apoyar su trabajo en la detección de la interacción humano-objeto en imágenes y videos.
El premio de Google, que se encuentra en la categoría Percepción de la máquina, permitirá a Huang abordar los desafíos de detectar dos aspectos de la interacción humano-objeto:modelar la relación entre una persona y objetos / escenas relevantes para recopilar información contextual y extraer ejemplos concretos automáticamente de videos no etiquetados pero ricos en interacción.
Según Huang, si bien se ha logrado un progreso significativo en la clasificación, detector, y segmentar objetos, representar imágenes / videos como una colección de instancias de objetos aislados no ha logrado capturar la información esencial para comprender la actividad.
"Al mejorar el modelo y ampliar la formación, Nuestro objetivo es dar un paso más hacia la construcción de máquinas socialmente inteligentes, "Dijo Huang.
Dada una imagen o un video, el objetivo es localizar personas e instancias de objetos, así como reconocer la interacción, Si alguna, entre cada pareja de una persona y un objeto. Esto proporciona una representación estructurada de un gráfico con base visual sobre los seres humanos y las instancias de objeto con las que interactúan.
Por ejemplo:dos hombres están uno al lado del otro al margen de una cancha de tenis, uno de pie y sosteniendo un paraguas y otro sentado en una silla sosteniendo una raqueta de tenis y mirando una bolsa en el suelo a su lado. A medida que avanza el video, los dos se sonríen, intercambiar el paraguas y la raqueta de tenis, sentarse uno al lado del otro, y beber de botellas de agua. Finalmente, se vuelven a mirarse, volver a cambiar el paraguas y la raqueta de tenis, y finalmente, hablar unos con otros.
"Comprender la actividad humana en imágenes y / o videos es un paso fundamental hacia la construcción de agentes socialmente conscientes, recuperación semántica de imágenes / videos, subtítulos y respuesta a preguntas, "Dijo Huang.
Dijo que la detección de la interacción humano-computadora conduce a una comprensión más profunda de la actividad centrada en el ser humano.
"En lugar de responder '¿Qué es dónde?' El objetivo de la detección de la interacción humano-objeto es responder a la pregunta "¿Qué está pasando?" Los resultados de la interacción humano-objeto proporcionan una descripción más detallada del estado de la escena y nos permiten predecir mejor el futuro y comprender su intención. "Dijo Huang.
Doctor. el estudiante Chen Gao trabajará en el proyecto con Huang. Esperan que la investigación avance significativamente en la detección de objetos humanos de vanguardia y permita muchas aplicaciones de alto impacto. como el control de la salud a largo plazo y los robots socialmente conscientes.
Huang planea compartir los resultados de la investigación a través de publicaciones en conferencias y revistas de primer nivel y también creará el código fuente, conjuntos de datos recopilados, y modelos previamente entrenados producidos a partir de este proyecto a disposición del público.
"Nuestro proyecto se alinea bien con varios de los esfuerzos en curso de Google para desarrollar 'inteligencia visual social'. Esperamos colaborar con investigadores e ingenieros de Google para intercambiar y compartir ideas y fomentar futuras relaciones de colaboración. "Dijo Huang.