Una nueva técnica para entrenar modelos de reconocimiento de video es hasta tres veces más rápida que los métodos actuales de última generación y, al mismo tiempo, mejora el rendimiento del tiempo de ejecución en dispositivos móviles. El trabajo fue destacado recientemente por Dario Gil (arriba), director de IBM Research, en la Semana de Investigación de IA del MIT-IBM Watson AI Lab en Cambridge, Massachusetts. Foto:Song Han
Una rama del aprendizaje automático llamada aprendizaje profundo ha ayudado a las computadoras a superar a los humanos en tareas visuales bien definidas, como leer escaneos médicos, pero a medida que la tecnología se expande para interpretar videos y eventos del mundo real, los modelos son cada vez más grandes y computacionalmente más intensivos.
Según una estimación, entrenar un modelo de reconocimiento de video puede requerir hasta 50 veces más datos y ocho veces más potencia de procesamiento que entrenar un modelo de clasificación de imágenes. Ese es un problema, ya que la demanda de potencia de procesamiento para entrenar modelos de aprendizaje profundo continúa aumentando exponencialmente y aumentan las preocupaciones sobre la enorme huella de carbono de la IA. Ejecución de grandes modelos de reconocimiento de video en dispositivos móviles de bajo consumo, hacia donde se dirigen muchas aplicaciones de IA, también sigue siendo un desafío.
Song Han, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, está abordando el problema mediante el diseño de modelos de aprendizaje profundo más eficientes. En un artículo en la Conferencia Internacional sobre Visión por Computador, Han El estudiante graduado del MIT Ji Lin y el investigador del MIT-IBM Watson AI Lab, Chuang Gan, esbozar un método para reducir los modelos de reconocimiento de video para acelerar el entrenamiento y mejorar el rendimiento del tiempo de ejecución en teléfonos inteligentes y otros dispositivos móviles. Su método permite encoger el modelo a una sexta parte del tamaño al reducir los 150 millones de parámetros en un modelo de última generación a 25 millones de parámetros.
"Nuestro objetivo es hacer que la IA sea accesible para cualquier persona con un dispositivo de bajo consumo, "dice Han." Para hacer eso, Necesitamos diseñar modelos de IA eficientes que utilicen menos energía y puedan funcionar sin problemas en dispositivos periféricos. donde se mueve gran parte de la IA ".
La caída del costo de las cámaras y el software de edición de video y el surgimiento de nuevas plataformas de transmisión de video ha inundado Internet con contenido nuevo. Cada hora, 30, Se suben 000 horas de video nuevo solo a YouTube. Las herramientas para catalogar ese contenido de manera más eficiente ayudarían a los espectadores y anunciantes a ubicar videos más rápido, dicen los investigadores. Dichas herramientas también ayudarían a instituciones como hospitales y hogares de ancianos a ejecutar aplicaciones de IA localmente. en lugar de en la nube, para mantener la privacidad y seguridad de los datos confidenciales.
Los modelos subyacentes de reconocimiento de imágenes y video son las redes neuronales, que se modelan vagamente sobre cómo el cerebro procesa la información. Ya sea una foto digital o una secuencia de imágenes de video, Las redes neuronales buscan patrones en los píxeles y construyen una representación cada vez más abstracta de lo que ven. Con suficientes ejemplos, las redes neuronales "aprenden" a reconocer a las personas, objetos, y cómo se relacionan.
Los mejores modelos de reconocimiento de video utilizan actualmente convoluciones tridimensionales para codificar el paso del tiempo en una secuencia de imágenes, que crea más grande, modelos más computacionalmente intensivos. Para reducir los cálculos involucrados, Han y sus colegas diseñaron una operación que denominan módulo de desplazamiento temporal que desplaza los mapas de características de un fotograma de vídeo seleccionado a sus fotogramas vecinos. Mezclando representaciones espaciales del pasado, regalo, y futuro, el modelo percibe el paso del tiempo sin representarlo explícitamente.
El resultado:un modelo que superó a sus pares en el reconocimiento de acciones en el conjunto de datos de video Something-Something, obteniendo el primer lugar en la versión 1 y la versión 2, en rankings públicos recientes. Una versión en línea del módulo de cambios también es lo suficientemente ágil para leer movimientos en tiempo real. En una demostración reciente, Lin, un doctorado estudiante en EECS, mostró cómo una computadora de placa única conectada a una cámara de video podía clasificar instantáneamente los gestos de las manos con la cantidad de energía para encender la luz de una bicicleta.
Normalmente se necesitarían alrededor de dos días para entrenar un modelo tan poderoso en una máquina con un solo procesador de gráficos. Pero los investigadores lograron tomar prestado tiempo en la supercomputadora Summit del Departamento de Energía de EE. UU. actualmente clasificado como el más rápido de la Tierra. Con la potencia de fuego adicional de Summit, los investigadores demostraron que con 1, 536 procesadores gráficos, el modelo se pudo entrenar en solo 14 minutos, cerca de su límite teórico. Eso es hasta tres veces más rápido que los modelos de última generación en 3D, ellos dicen.
Darío Gil, director de IBM Research, destacó el trabajo en sus recientes comentarios de apertura en AI Research Week organizada por el MIT-IBM Watson AI Lab.
"Los requisitos informáticos para los grandes trabajos de formación en IA se duplican cada 3,5 meses, ", dijo más tarde." Nuestra capacidad para seguir empujando los límites de la tecnología dependerá de estrategias como esta que combinen algoritmos hipereficientes con máquinas potentes ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.