Enseñar a los agentes de inteligencia artificial las subrutinas de navegación alimentándoles con videos

Dada una imagen de entrada como se muestra en la parte superior, los investigadores proponen un método novedoso para aprender subrutinas, políticas de horizonte corto que exhiben un comportamiento coherente (como ir a la izquierda a una habitación), y prestaciones, qué subrutinas se pueden invocar y dónde. Crédito:Kumar, Gupta y Malik.

Investigadores de UC Berkeley y Facebook AI Research han propuesto recientemente un nuevo enfoque que puede mejorar las habilidades de navegación de los modelos de aprendizaje automático. Su método, presentado en un artículo publicado previamente en arXiv, permite a los modelos adquirir subrutinas de navegación viso-motor mediante el procesamiento de una serie de videos.

"Cada mañana, cuando decides tomar una taza de café en la cocina, piensas en ir por el pasillo, girando a la izquierda en el pasillo y luego entrando en la habitación de la derecha, "escribieron los investigadores en su artículo." En lugar de decidir los pares exactos de los músculos, usted planea en este nivel superior de abstracción componiendo estas subrutinas visuo-motoras de nivel inferior reutilizables para alcanzar su objetivo ".

Estas "subrutinas visuo-motoras" o "abstracciones jerárquicas" que los humanos crean en sus mentes, en última instancia, les ayudan a moverse con eficacia dentro de su entorno circundante. La reproducción de un mecanismo similar en agentes computacionales podría mejorar significativamente sus habilidades de navegación y planificación.

Los enfoques para entrenar modelos sobre estas abstracciones jerárquicas se han dividido hasta ahora en dos categorías clave:métodos de diseño manual (es decir, planificación clásica) y técnicas de aprendizaje por refuerzo. Ambos tipos de enfoques, sin embargo, tienen limitaciones importantes. Las estrategias de planificación clásicas a menudo son subóptimas, mientras que los métodos de aprendizaje por refuerzo pueden ser inestables, así como costoso de desarrollar y entrenar.

En su estudio, los investigadores de UC Berkeley y Facebook introdujeron un paradigma alternativo que permite que los modelos adquieran abstracciones jerárquicas mediante el análisis de datos de observación pasiva en primera persona (es decir, videos). Estos videos están etiquetados con acciones de agentes, que, en última instancia, puede ayudar a un robot a navegar por su entorno.

"Usamos un modelo inverso entrenado en pequeñas cantidades de datos de interacción para pseudoetiquetar los videos pasivos en primera persona con acciones de agentes, "Los investigadores explicaron en su artículo." Las subrutinas visuo-motoras se adquieren a partir de estos videos pseudo-etiquetados mediante el aprendizaje de una política latente condicionada por la intención que predice las pseudo-acciones inferidas a partir de las correspondientes observaciones de imágenes ".

Los investigadores evaluaron su enfoque y demostraron que puede mejorar significativamente las capacidades de navegación de un agente. En sus pruebas, su método permitió con éxito la adquisición de una variedad de subrutinas visuo-motoras a partir de videos pasivos en primera persona.

"Demostramos la utilidad de nuestras subrutinas visuo-motoras adquiridas usándolas tal cual para la exploración y como subpolíticas en un marco jerárquico de RL para alcanzar metas puntuales y metas semánticas, "escribieron los investigadores." También demostramos el comportamiento de nuestras subrutinas en el mundo real, desplegándolos en una plataforma robótica real ".

El enfoque propuesto por los investigadores logró un rendimiento notable en todas las métricas evaluadas por los investigadores. Además, se descubrió que supera las técnicas de aprendizaje de última generación que se entrenaron en muestras de interacción sustancialmente más grandes, generando trayectorias que cubrieron más a fondo el entorno.

Es más, mientras que el nuevo enfoque adquirió abstracciones jerárquicas de un total de 45, 000 interacciones con el medio ambiente, las técnicas de vanguardia con las que se comparó lograron resultados menos satisfactorios después de hasta 10 millones de interacciones. El método de los investigadores también superó las líneas de base hechas a mano que fueron diseñadas específicamente para navegar por el medio ambiente y evitar obstáculos.

"El aprendizaje exitoso de los videos en primera persona permitió al agente ejecutar trayectorias coherentes, a pesar de que solo había ejecutado acciones aleatorias, "escribieron los investigadores." También aprendió con éxito el sesgo hacia las acciones de avance en la navegación y la noción de evitación de obstáculos, lo que lleva a una distancia máxima alta y una tasa de colisión baja ".

El estudio realizado por este equipo de investigadores introduce una alternativa viable y altamente eficaz a los métodos actuales para entrenar a los agentes de IA en subrutinas de navegación. En el futuro, su enfoque podría informar el desarrollo de robots con habilidades de planificación y navegación más avanzadas.

VW dice que las conversaciones de cooperación con Ford están cerca de completarse

Tomando el pulso de una ciudad con sensores móviles

Electrónica