Brendan Englot, del Stevens Institute of Technology, aprovechará una nueva variante de las herramientas clásicas de inteligencia artificial para crear robots que puedan predecir y gestionar los riesgos que implica completar la tarea deseada. Crédito:Instituto de Tecnología Stevens
Al igual que los humanos cuando los robots tienen que tomar una decisión, a menudo hay muchas opciones y cientos de resultados potenciales. Los robots han podido simular algunos de estos resultados para determinar qué curso de acción será más probable que conduzca al éxito. Pero, ¿y si una de las otras opciones tuviera las mismas probabilidades de éxito y fuera más segura?
La Oficina de Investigación Naval ha otorgado a Brendan Englot, un ingeniero mecánico capacitado en el MIT en el Stevens Institute of Technology, un Premio al Joven Investigador 2020 de $ 508, 693 para aprovechar una nueva variante de una herramienta clásica de inteligencia artificial para permitir a los robots predecir los muchos resultados posibles de sus acciones, y la probabilidad de que ocurran. El marco permitirá a los robots descubrir qué opción es la mejor manera de lograr un objetivo, al comprender qué opciones son las más seguras, más eficiente y menos propenso a fallar.
"Si la forma más rápida de que un robot complete una tarea es caminando por el borde de un acantilado, que sacrifica la seguridad por la velocidad, "dijo Englot, quién estará entre los primeros en utilizar la herramienta, aprendizaje por refuerzo distributivo, entrenar robots. "No queremos que el robot se caiga por el borde de ese acantilado, por lo que les estamos brindando las herramientas para predecir y administrar los riesgos involucrados en completar la tarea deseada ".
Durante años, El aprendizaje por refuerzo se ha utilizado para entrenar a los robots para que naveguen de forma autónoma en el agua. tierra y aire. Pero esa herramienta de IA tiene limitaciones, porque toma decisiones basadas en un único resultado esperado para cada acción disponible, cuando, de hecho, a menudo hay muchos otros resultados posibles que pueden ocurrir. Englot está utilizando el aprendizaje por refuerzo distributivo, un algoritmo de inteligencia artificial que un robot puede usar para evaluar todos los resultados posibles, predice la probabilidad de que cada acción tenga éxito y elija la opción más conveniente que pueda tener éxito mientras mantiene a un robot seguro.
Antes de poner su algoritmo en uso en un robot real, La primera misión de Englot es perfeccionar el algoritmo. Englot y su equipo crean una serie de situaciones de toma de decisiones en las que probar su algoritmo. Y a menudo recurren a uno de los terrenos de juego favoritos del campo:los juegos de Atari.
Por ejemplo, cuando juegas Pacman, eres el algoritmo que decide cómo se comporta Pacman. Tu objetivo es conseguir todos los puntos del laberinto y, si puedes, consigue algo de fruta. Pero hay fantasmas flotando alrededor que pueden matarte. Cada segundo, estás obligado a tomar una decisión. Vas derecho ¿izquierda o derecha? ¿Qué camino te da la mayor cantidad de puntos, y puntos, al mismo tiempo que te mantiene alejado de los fantasmas?
Algoritmo de inteligencia artificial de Englot, utilizando el aprendizaje por refuerzo distributivo, tomará el lugar de un jugador humano, simulando todos los movimientos posibles para navegar con seguridad por su paisaje.
Entonces, ¿cómo recompensas a un robot? Englot y su equipo asignarán puntos a diferentes resultados, es decir., si se cae por un acantilado, el robot obtiene -100 puntos. Si toma un poco más lento, pero opción más segura, puede recibir -1 punto por cada paso a lo largo del desvío. Pero si alcanza la meta con éxito, puede obtener +50.
"Uno de nuestros objetivos secundarios es ver cómo se pueden diseñar las señales de recompensa para tener un impacto positivo en la forma en que un robot toma decisiones y puede ser entrenado. ", dijo Englot." Esperamos que las técnicas desarrolladas en este proyecto se puedan utilizar en última instancia para una IA aún más compleja, como entrenar robots submarinos para navegar de manera segura en medio de diferentes mareas, corrientes, y otros factores ambientales complejos ".