Muestra de fotogramas consecutivos procesados con el mecanismo de empaquetado ROI. Crédito:Athindran et al.
Investigadores del Centro Robert Bosch de Ciencia de Datos e Inteligencia Artificial y del Centro de Investigación del Cerebro Computacional, Instituto Indio de Tecnología de Madrás, y la Universidad de Purdue han desarrollado recientemente un nuevo método para reducir los requisitos computacionales para la detección de objetos en videos usando redes neuronales. Su técnica, llamado Pack and Detect (PaD), se describió en un artículo publicado previamente en arXiv.
La detección de objetos es un aspecto clave de muchas aplicaciones de visión por computadora, como el seguimiento de objetos, resumen de video, y búsqueda de videos. Si bien los avances recientes en el aprendizaje automático han llevado al desarrollo de herramientas cada vez más precisas para completar esta tarea, Los métodos existentes son todavía computacionalmente muy intensivos. Por ejemplo, procesar un video a una resolución de 300 x 300 usando la red de detección de objetos SSD300, con VGG16 como backbone y a 30 fps requiere 1,87 billones de operaciones de punto flotante por segundo (FLOPS).
Los investigadores observaron que en algunos casos, sin embargo, la mayoría de las regiones de un fotograma de vídeo son simplemente de fondo, con objetos sobresalientes que ocupan solo una pequeña fracción del área en el marco. Además, encontraron que existe una fuerte correlación temporal entre fotogramas consecutivos. Aprovecharon estas observaciones y propusieron una nueva técnica para la detección de objetos en videos que podría reducir los requisitos computacionales para las tareas de detección de objetos.
"Nos inspiramos en el mecanismo foveal en los sistemas de visión biológica y artificial, "Athindran Ramesh Kumar, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Los esfuerzos anteriores relacionados con los mecanismos de atención foveal en los sistemas de visión artificial se centran en una sola región de la imagen o en un objeto a la vez. Nos preguntamos cómo sería un sistema de visión si pudiera centrarse en todas las regiones destacadas de la escena a la vez. . "
Por tanto, el método de detección de objetos ideado por los investigadores está inspirado en los sistemas de visión biológica. Sin embargo, contrariamente a intentos anteriores, su sistema empaqueta todas las regiones de interés juntas en un solo marco, en lugar de procesarlos secuencialmente.
"El objetivo de nuestro trabajo era acelerar la detección de objetos en los videos centrándonos solo en las regiones más destacadas del marco y eliminando el desorden de fondo, "Balaraman Ravindran, otro investigador que realizó el estudio, dijo a TechXplore. "Para eliminar el desorden de fondo, explotamos la correlación temporal entre cuadros adyacentes en un video. Ésta es una propiedad que utilizan las técnicas de compresión de video para reducir los requisitos de almacenamiento y ancho de banda; lo usamos para acelerar el cálculo ".
Almohadilla, el método de detección de objetos propuesto por Ravindran y sus colegas funciona procesando fotogramas a intervalos regulares en tamaño completo. Estos marcos se denominan "marcos de anclaje". En todos los demás marcos, por otra parte, la herramienta identifica las regiones de interés en función de la ubicación en la que se situaron los objetos en el cuadro anterior.
"Estas regiones de interés están organizadas juntas como en un collage, que se utiliza como entrada para el detector de objetos, "Anand Raghunathan, uno de los investigadores que realizó el estudio, dijo a TechXplore. "A continuación, las detecciones se vuelven a asignar a las ubicaciones de la imagen original. Este método es más rápido porque las imágenes del collage son de menor tamaño que los fotogramas completos. Aprovechamos la flexibilidad de los detectores de objetos populares, como SSD300, para procesar imágenes a tamaño completo y tamaños más pequeños ".
Los investigadores evaluaron su método en el conjunto de datos ImageNet VID y descubrieron que aceleraba los tiempos en 1,25 veces, con una caída de menos del 1,6 por ciento en la precisión. Además, observaron que el tiempo necesario para procesar fotogramas de menor tamaño era casi tres veces menor, con el recuento de FLOP reducido en cuatro veces.
Además, su estudio destacó dos aspectos importantes que podrían informar el desarrollo de métodos más rápidos y menos intensivos en computación para detectar objetos en videos. Primero, los objetos de interés generalmente solo ocupan una pequeña fracción de píxeles en un cuadro; segundo, existe una correlación entre los fotogramas adyacentes en un video.
"Nuestro trabajo puede ayudar a hacer posible el análisis de video en dispositivos con recursos limitados en el borde del Internet de las cosas al reducir los requisitos computacionales, o puede mejorar la cantidad de transmisiones de video que puede procesar un servidor en la nube, "Dijo Athindran.
El estudio realizado por este equipo de investigadores es un paso inicial hacia el desarrollo de herramientas de detección de objetos más efectivas. Ahora están planificando nuevas investigaciones que podrían mejorar aún más su método.
Por ejemplo, en la actualidad, PaD selecciona marcos de anclaje a intervalos regulares, sin embargo, los investigadores podrían desarrollar un mecanismo que identifique dinámicamente estos marcos clave. También planean probar su técnica en hardware con más recursos limitados, como teléfonos inteligentes, dispositivos portátiles y electrodomésticos inteligentes.
"Creamos un algoritmo para inferir las regiones de interés y formar una imagen de collage, ", Dijo Ravindran." Pero un sistema completamente neuronal tendría redes neuronales que generan la imagen del collage basada en el cuadro anterior. Esta es una línea de trabajo futuro más ambiciosa ".
© 2018 Tech Xplore