Ejemplo de fotograma de video abarrotado anotado con el nuevo método. Crédito:Růžička y Franchetti.
Investigadores de la Universidad Carnegie Mellon han desarrollado recientemente un nuevo modelo que permite la detección de objetos rápida y precisa en secuencias de video de alta resolución 4K y 8K utilizando GPU. Su método de canalización de atención lleva a cabo una evaluación en dos etapas de cada imagen o fotograma de video con una resolución aproximada y refinada. limitando el número total de evaluaciones necesarias.
En años recientes, el aprendizaje automático ha obtenido resultados notables en tareas de visión por computadora, incluida la detección de objetos. Sin embargo, la mayoría de los modelos de reconocimiento de objetos suelen funcionar mejor en imágenes con una resolución relativamente baja. Como la resolución de los dispositivos de grabación mejora rápidamente, Existe una creciente necesidad de herramientas que puedan procesar datos de alta resolución.
"Estábamos interesados en encontrar y superar las limitaciones de los enfoques actuales, "Vít Růžička, uno de los investigadores que llevó a cabo el estudio le dijo a TechXplore. "Si bien muchas fuentes de datos registran en alta resolución, modelos actuales de detección de objetos de última generación, como YOLO, RCNN más rápido, SSD, etc., trabajar con imágenes que tengan una resolución relativamente baja de aproximadamente 608 x 608 px. Nuestro principal objetivo era escalar la tarea de detección de objetos a videos de 4K-8K (hasta 7680 x 4320 px) manteniendo una alta velocidad de procesamiento. También queríamos saber si podemos beneficiarnos de la alta resolución y en qué medida en comparación con el uso de imágenes de baja resolución. en términos de precisión de los modelos ".
El canal de atención propuesto por Růžička y su colega Franz Franchetti divide la tarea de detección de objetos en dos etapas. En ambas etapas, los investigadores subdividieron la imagen original superponiéndola con una cuadrícula regular y luego aplicaron el modelo YOLO v2 para la detección rápida de objetos.
Manejo de resolución en el ejemplo de procesamiento de cuadros de video 4K. Durante el paso de atención, la imagen se procesa con una resolución aproximada, permitiendo a los investigadores decidir qué regiones de la imagen deberían estar activas en una evaluación final más fina. Crédito:Růžička y Franchetti.
"Creamos muchos cultivos rectangulares pequeños, que puede ser procesado por YOLO v2 en varios trabajadores del servidor, de manera paralela, "Explicó Růžička." La primera etapa mira la imagen reducida a una resolución más baja y realiza una detección rápida de objetos para obtener cuadros delimitadores aproximados. La segunda etapa utiliza estos cuadros delimitadores como un mapa de atención para decidir dónde debemos verificar la imagen en alta resolución. Por lo tanto, cuando algunas áreas de la imagen no contienen ningún objeto de interés, podemos ahorrar al procesarlos en alta resolución ".
La canalización de la atención. Desglose escalonado de la imagen original con diferente resolución efectiva. Crédito:Růžička y Franchetti.
Los investigadores implementaron su modelo en código, distribuir su trabajo en las GPU. Pudieron mantener una alta precisión al tiempo que alcanzaron un rendimiento promedio de tres a seis fps en videos 4K y dos fps en videos 8K. Su método produjo importantes beneficios, con la precisión media medida en el conjunto de datos probado aumentando de 33,6 AP 50 hasta 74,3 AP 50 al procesar imágenes en alta resolución en comparación con la reducción de imágenes a baja resolución, que es como funciona generalmente YOLO v2.
"Nuestro método redujo el tiempo necesario para procesar imágenes de alta resolución en aproximadamente un 20 por ciento, en comparación con el procesamiento de cada parte de la imagen original en alta resolución, ", Dijo Růžička." La implicación práctica de esto es que el procesamiento de video 4K casi en tiempo real es factible. Nuestro método también requiere un número menor de trabajadores del servidor para completar esta tarea ".
A pesar de los resultados muy prometedores obtenidos con este nuevo método de detección de objetos, el uso de una cuadrícula regular superpuesta a la imagen original puede dar lugar a una serie de problemas. Por ejemplo, a veces puede resultar en que los objetos detectados se corten por la mitad, que requiere un paso de posprocesamiento en los cuadros delimitadores detectados. Actualmente, Růžička y Franchetti están explorando formas de abordar y sortear estos problemas para mejorar aún más su modelo.
© 2018 Science X Network