Los investigadores del MIT han ideado una forma de ayudar a los robots a navegar en entornos más como lo hacen los humanos. Crédito:Instituto de Tecnología de Massachusetts
Al moverse entre una multitud para alcanzar algún objetivo final, los humanos generalmente pueden navegar por el espacio de manera segura sin pensar demasiado. Pueden aprender del comportamiento de los demás y observar los obstáculos que deben evitar. Robots por otra parte, luchar con tales conceptos de navegación.
Los investigadores del MIT ahora han ideado una forma de ayudar a los robots a navegar en entornos más como lo hacen los humanos. Su novedoso modelo de planificación del movimiento permite a los robots determinar cómo alcanzar un objetivo explorando el entorno. observando a otros agentes, y explotar lo que han aprendido antes en situaciones similares. En la Conferencia Internacional IEEE / RSJ sobre Robots y Sistemas Inteligentes (IROS) de esta semana se presentó un artículo que describe el modelo.
Los algoritmos populares de planificación de movimiento crearán un árbol de posibles decisiones que se ramificará hasta que encuentre buenos caminos para la navegación. Un robot que necesita navegar por una habitación para llegar a una puerta. por ejemplo, creará un árbol de búsqueda paso a paso de posibles movimientos y luego ejecutará el mejor camino hacia la puerta, considerando varias limitaciones. Un inconveniente, sin embargo, Estos algoritmos rara vez aprenden:los robots no pueden aprovechar la información sobre cómo ellos u otros agentes actuaron anteriormente en entornos similares.
"Al igual que cuando se juega al ajedrez, estas decisiones se ramifican hasta que [los robots] encuentran una buena forma de navegar. Pero a diferencia de los ajedrecistas, [los robots] exploran cómo se ve el futuro sin aprender mucho sobre su entorno y otros agentes, "dice el coautor Andrei Barbu, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) y del Centro de Cerebros, Mentes and Machines (CBMM) dentro del Instituto McGovern del MIT. "La milésima vez que atraviesan la misma multitud es tan complicada como la primera vez. Siempre están explorando, rara vez observando, y nunca usar lo que sucedió en el pasado ".
Los investigadores desarrollaron un modelo que combina un algoritmo de planificación con una red neuronal que aprende a reconocer los caminos que podrían conducir al mejor resultado. y utiliza ese conocimiento para guiar el movimiento del robot en un entorno.
En su papel "Modelos secuenciales profundos para la planificación basada en muestras, "los investigadores demuestran las ventajas de su modelo en dos escenarios:navegar a través de salas desafiantes con trampas y pasajes estrechos, y áreas de navegación evitando colisiones con otros agentes. Una aplicación prometedora para el mundo real está ayudando a los vehículos autónomos a navegar por las intersecciones, donde tienen que evaluar rápidamente lo que harán los demás antes de incorporarse al tráfico. Los investigadores actualmente están buscando tales aplicaciones a través del Centro de Investigación Conjunto Toyota-CSAIL.
"Cuando los humanos interactúan con el mundo, vemos un objeto con el que hemos interactuado antes, o estamos en algún lugar en el que hemos estado antes, para que sepamos cómo vamos a actuar, "dice Yen-Ling Kuo, un doctorado en CSAIL y primer autor del artículo. "La idea detrás de este trabajo es agregar al espacio de búsqueda un modelo de aprendizaje automático que sepa por experiencias pasadas cómo hacer que la planificación sea más eficiente".
Boris Katz, un científico investigador principal y director del Grupo InfoLab en CSAIL, también es coautor del artículo.
Negociación de exploración y explotación
Los planificadores de movimiento tradicionales exploran un entorno al expandir rápidamente un árbol de decisiones que eventualmente cubre todo un espacio. Luego, el robot mira el árbol para encontrar una manera de alcanzar la meta, como una puerta. El modelo de los investigadores, sin embargo, ofrece "una compensación entre explorar el mundo y explotar el conocimiento pasado, "Dice Kuo.
El proceso de aprendizaje comienza con algunos ejemplos. Un robot que usa el modelo está capacitado en algunas formas de navegar en entornos similares. La red neuronal aprende qué hace que estos ejemplos tengan éxito al interpretar el entorno que rodea al robot, como la forma de las paredes, las acciones de otros agentes, y características de las porterías. En breve, el modelo "aprende que cuando estás atrapado en un entorno, y ves una puerta probablemente sea una buena idea atravesar la puerta para salir, "Dice Barbu.
El modelo combina el comportamiento de exploración de métodos anteriores con esta información aprendida. El planificador subyacente, llamado RRT *, fue desarrollado por los profesores del MIT Sertac Karaman y Emilio Frazzoli. (Es una variante de un algoritmo de planificación de movimiento ampliamente utilizado conocido como Árboles aleatorios de exploración rápida, o RRT.) El planificador crea un árbol de búsqueda mientras que la red neuronal refleja cada paso y hace predicciones probabilísticas sobre dónde debería ir el robot a continuación. Cuando la red hace una predicción con alta confianza, basado en información aprendida, guía al robot por un nuevo camino. Si la red no tiene mucha confianza, en su lugar, permite que el robot explore el entorno, como un planificador tradicional.
Por ejemplo, los investigadores demostraron el modelo en una simulación conocida como "trampa de insectos, "donde un robot 2-D debe escapar de una cámara interior a través de un canal estrecho central y llegar a una ubicación en una habitación más grande circundante. Los aliados ciegos a ambos lados del canal pueden atascar robots. En esta simulación, el robot fue entrenado con algunos ejemplos de cómo escapar de diferentes trampas de insectos. Cuando se enfrenta a una nueva trampa, reconoce las características de la trampa, escapa, y continúa buscando su objetivo en la sala más grande. La red neuronal ayuda al robot a encontrar la salida a la trampa, identificar los callejones sin salida, y le da al robot una idea de su entorno para que pueda encontrar rápidamente el objetivo.
Los resultados en el documento se basan en las posibilidades de que se encuentre una ruta después de un tiempo, longitud total del camino que alcanzó una meta determinada, y cuán consistentes eran los caminos. En ambas simulaciones, El modelo de los investigadores trazó más rápidamente caminos mucho más cortos y consistentes que un planificador tradicional.
Trabajando con múltiples agentes
En otro experimento, los investigadores entrenaron y probaron el modelo en entornos de navegación con múltiples agentes en movimiento, que es una prueba útil para autos autónomos, especialmente navegando por intersecciones y rotondas. En la simulación, varios agentes rodean un obstáculo. Un agente robot debe navegar con éxito alrededor de los otros agentes, evitar colisiones, y alcanzar una ubicación objetivo, como una salida en una rotonda.
"Situaciones como rotondas son difíciles, porque requieren razonamiento sobre cómo los demás responderán a sus acciones, cómo responderás entonces a los de ellos, qué harán a continuación, etcétera, "Dice Barbu." Con el tiempo descubres que tu primera acción fue incorrecta, porque más adelante conducirá a un probable accidente. Este problema empeora exponencialmente cuanto más coches tienes que afrontar ".
Los resultados indican que el modelo de los investigadores puede capturar suficiente información sobre el comportamiento futuro de los otros agentes (automóviles) para interrumpir el proceso de manera anticipada. sin dejar de tomar buenas decisiones en la navegación. Esto hace que la planificación sea más eficiente. Es más, solo necesitaban entrenar el modelo en algunos ejemplos de rotondas con solo unos pocos autos. "Los planes que hacen los robots tienen en cuenta lo que van a hacer los otros coches, como lo haría cualquier humano, "Dice Barbu.
Atravesar intersecciones o rotondas es uno de los escenarios más desafiantes que enfrentan los autos autónomos. Este trabajo podría algún día permitir que los automóviles aprendan cómo se comportan los humanos y cómo adaptarse a los conductores en diferentes entornos. según los investigadores. Este es el enfoque del trabajo del Centro de Investigación Conjunto Toyota-CSAIL.
"No todo el mundo se comporta de la misma manera, pero la gente es muy estereotipada. Hay gente que es tímida personas que son agresivas. El modelo lo reconoce rápidamente y es por eso que puede planificar de manera eficiente, "Dice Barbu.
Más recientemente, los investigadores han estado aplicando este trabajo a robots con manipuladores que enfrentan desafíos igualmente desalentadores cuando alcanzan objetos en entornos en constante cambio.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.