Crédito:CC0 Public Domain
Dados solo unos pocos fotogramas de un video, los humanos generalmente pueden suponer lo que está sucediendo y sucederá en la pantalla. Si vemos un cuadro temprano de latas apiladas, un marco intermedio con un dedo en la base de la pila, y un cuadro tardío que muestra las latas volcadas, podemos adivinar que el dedo derribó las latas. Ordenadores, sin embargo, luchar con este concepto.
En un documento que se presenta en la Conferencia Europea de Visión por Computador de esta semana, Los investigadores del MIT describen un módulo adicional que ayuda a los sistemas de inteligencia artificial llamados redes neuronales convolucionales, o CNN, para llenar los espacios entre los fotogramas de video para mejorar en gran medida el reconocimiento de actividad de la red.
El módulo de investigadores, llamada Red de Relación Temporal (TRN), aprende cómo cambian los objetos en un video en diferentes momentos. Lo hace analizando algunos fotogramas clave que representan una actividad en diferentes etapas del video, como objetos apilados que luego se derriban. Usando el mismo proceso, luego puede reconocer el mismo tipo de actividad en un nuevo video.
En experimentos, el módulo superó los modelos existentes por un amplio margen en el reconocimiento de cientos de actividades básicas, como pinchar objetos para hacerlos caer, lanzando algo al aire, y dando un pulgar hacia arriba. También predijo con mayor precisión lo que sucederá a continuación en un video, mostrando, por ejemplo, dos manos haciendo un pequeño desgarro en una hoja de papel, dado sólo un pequeño número de fotogramas iniciales.
Un día, el módulo podría usarse para ayudar a los robots a comprender mejor lo que sucede a su alrededor.
"Creamos un sistema de inteligencia artificial para reconocer la transformación de objetos, en lugar de la apariencia de objetos, "dice Bolei Zhou, un ex Ph.D. estudiante del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) que ahora es profesor asistente de ciencias de la computación en la Universidad China de Hong Kong. "El sistema no pasa por todos los fotogramas, sino que detecta fotogramas clave y, utilizando la relación temporal de fotogramas, reconocer lo que está pasando. Eso mejora la eficiencia del sistema y lo hace funcionar en tiempo real con precisión ".
Los coautores del artículo son el investigador principal de CSAIL, Antonio Torralba, quien también es profesor en el Departamento de Ingeniería Eléctrica e Informática; Aude Oliva, científico investigador principal de CSAIL; y el asistente de investigación de CSAIL Alex Andonian.
Recogiendo fotogramas clave
Dos módulos CNN comunes que se utilizan hoy en día para el reconocimiento de actividades adolecen de inconvenientes de eficiencia y precisión. Un modelo es preciso, pero debe analizar cada fotograma de video antes de hacer una predicción. que es computacionalmente costoso y lento. El otro tipo, llamada red de dos flujos, es menos precisa pero más eficiente. Utiliza una secuencia para extraer características de un fotograma de video, y luego fusiona los resultados con "flujos ópticos, "un flujo de información extraída sobre el movimiento de cada píxel. Los flujos ópticos también son computacionalmente costosos de extraer, por lo que el modelo todavía no es tan eficiente.
"Queríamos algo que funcionara entre esos dos modelos:obtener eficiencia y precisión, "Dice Zhou.
Los investigadores capacitaron y probaron su módulo en tres conjuntos de datos de fuentes colaborativas de videos cortos de varias actividades realizadas. El primer conjunto de datos, llamado Algo-Algo, construido por la empresa TwentyBN, tiene más de 200, 000 videos en 174 categorías de acción, como empujar un objeto para que se caiga o levantar un objeto. El segundo conjunto de datos, Bufón, contiene casi 150, 000 videos con 27 gestos de manos diferentes, como dar un pulgar hacia arriba o deslizar el dedo hacia la izquierda. El tercero, Charadas, construido por investigadores de la Universidad Carnegie Mellon, tiene casi 10, 000 videos de 157 actividades categorizadas, como llevar una bicicleta o jugar al baloncesto.
Cuando se le da un archivo de video, El módulo de investigadores procesa simultáneamente marcos ordenados, en grupos de dos, Tres, y cuatro, separados por un tiempo. Luego, asigna rápidamente una probabilidad de que la transformación del objeto en esos marcos coincida con una clase de actividad específica. Por ejemplo, si procesa dos marcos, donde el último marco muestra un objeto en la parte inferior de la pantalla y el anterior muestra el objeto en la parte superior, asignará una alta probabilidad a la clase de actividad, "objeto en movimiento hacia abajo". Si un tercer cuadro muestra el objeto en el medio de la pantalla, esa probabilidad aumenta aún más, etcétera. De esto, aprende características de transformación de objetos en marcos que la mayoría representan una determinada clase de actividad.
Reconocimiento y previsión de actividades
En prueba, una CNN equipada con el nuevo módulo reconoció con precisión muchas actividades utilizando dos marcos, pero la precisión aumentó al muestrear más marcos. Para Jester, el módulo logró una precisión máxima del 95 por ciento en el reconocimiento de actividades, superando varios modelos existentes.
Incluso acertó en clasificaciones ambiguas:Algo-Algo, por ejemplo, incluyó acciones como "pretender abrir un libro" versus "abrir un libro". Para discernir entre los dos, el módulo acaba de muestrear algunos fotogramas clave más, que reveló, por ejemplo, una mano cerca de un libro en un marco anterior, luego en el libro, luego se alejó del libro en un marco posterior.
Algunos otros modelos de reconocimiento de actividad también procesan fotogramas clave, pero no consideran las relaciones temporales en los fotogramas, lo que reduce su precisión. Los investigadores informan que su módulo TRN casi duplica en precisión sobre esos modelos de fotogramas clave en ciertas pruebas.
El módulo también superó a los modelos de pronóstico de una actividad, dados marcos limitados. Después de procesar el primer 25 por ciento de los fotogramas, el módulo logró una precisión varios puntos porcentuales más alta que un modelo de referencia. Con el 50 por ciento de los marcos, logró una precisión del 10 al 40 por ciento más alta. Los ejemplos incluyen determinar que un papel se rasgará solo un poco, basado en cómo se colocan dos manos en el papel en los primeros fotogramas, y prediciendo que una mano levantada, se muestra mirando hacia adelante, deslizaría hacia abajo.
"Eso es importante para las aplicaciones de robótica, "Dice Zhou." Quieres que [un robot] anticipe y pronostique lo que sucederá desde el principio, cuando realizas una acción específica ".
Próximo, los investigadores tienen como objetivo mejorar la sofisticación del módulo. El primer paso es implementar el reconocimiento de objetos junto con el reconocimiento de actividades. Luego, esperan agregar "física intuitiva, "lo que significa ayudarlo a comprender las propiedades físicas de los objetos en el mundo real". Debido a que conocemos gran parte de la física dentro de estos videos, podemos entrenar el módulo para aprender tales leyes de la física y usarlas para reconocer nuevos videos, "Dice Zhou." También abrimos todo el código y los modelos. La comprensión de la actividad es un área apasionante de la inteligencia artificial en este momento ".