Una nueva investigación sugiere que entrenar un modelo de inteligencia artificial con compañeros de equipo matemáticamente "diversos" mejora su capacidad para colaborar con otra IA con la que nunca antes había trabajado. Crédito:Bryan Mastergeorge
A medida que la inteligencia artificial mejora en la realización de tareas que antes solo estaban en manos de humanos, como conducir automóviles, muchos ven la inteligencia de equipos como la próxima frontera. En este futuro, los humanos y la IA son verdaderos socios en trabajos de alto riesgo, como realizar cirugías complejas o defenderse de misiles. Pero antes de que la inteligencia en equipo pueda despegar, los investigadores deben superar un problema que corroe la cooperación:a los humanos a menudo no les gusta ni confían en sus socios de IA.
Ahora, una nueva investigación apunta a la diversidad como un parámetro clave para hacer de la IA un mejor jugador de equipo.
Los investigadores del Laboratorio Lincoln del MIT han descubierto que entrenar un modelo de IA con compañeros de equipo matemáticamente "diversos" mejora su capacidad para colaborar con otra IA con la que nunca ha trabajado antes, en el juego de cartas Hanabi. Además, tanto Facebook como DeepMind de Google publicaron simultáneamente un trabajo independiente que también infundió diversidad en la capacitación para mejorar los resultados en los juegos colaborativos humanos-IA.
En conjunto, los resultados pueden indicar a los investigadores un camino prometedor para hacer que la IA pueda funcionar bien y ser vista como un buen colaborador por parte de los compañeros humanos.
"El hecho de que todos convergiéramos en la misma idea, que si quieres cooperar, necesitas capacitarte en un entorno diverso, es emocionante y creo que realmente sienta las bases para el trabajo futuro en IA cooperativa", dice Ross. Allen, investigador del Grupo de Tecnología de Inteligencia Artificial del Laboratorio Lincoln y coautor de un artículo que detalla este trabajo, que se presentó recientemente en la Conferencia Internacional sobre Agentes Autónomos y Sistemas de Agentes Múltiples.
Adaptarse a diferentes comportamientos
Para desarrollar IA cooperativa, muchos investigadores están utilizando Hanabi como campo de pruebas. Hanabi desafía a los jugadores a trabajar juntos para apilar las cartas en orden, pero los jugadores solo pueden ver las cartas de sus compañeros de equipo y solo pueden darse algunas pistas entre sí sobre qué cartas tienen.
En un experimento anterior, los investigadores del Laboratorio Lincoln probaron uno de los modelos de IA de Hanabi con mejor rendimiento del mundo con humanos. Se sorprendieron al descubrir que a los humanos les disgustaba mucho jugar con este modelo de IA, llamándolo un compañero de equipo confuso e impredecible. "La conclusión fue que nos falta algo acerca de las preferencias humanas, y aún no somos buenos para hacer modelos que puedan funcionar en el mundo real", dice Allen.
El equipo se preguntó si la IA cooperativa necesita ser entrenada de manera diferente. El tipo de IA que se utiliza, llamado aprendizaje por refuerzo, tradicionalmente aprende a tener éxito en tareas complejas al descubrir qué acciones producen la mayor recompensa. A menudo se entrena y evalúa contra modelos similares a él. Este proceso ha creado jugadores de IA inigualables en juegos competitivos como Go y StarCraft.
Pero para que la IA sea un colaborador exitoso, tal vez no solo deba preocuparse por maximizar la recompensa al colaborar con otros agentes de la IA, sino también algo más intrínseco:comprender y adaptarse a las fortalezas y preferencias de los demás. En otras palabras, necesita aprender de la diversidad y adaptarse a ella.
¿Cómo se entrena una IA tan diversa? A los investigadores se les ocurrió "Any-Play". Any-Play aumenta el proceso de entrenamiento de un agente de IA Hanabi al agregar otro objetivo, además de maximizar la puntuación del juego:la IA debe identificar correctamente el estilo de juego de su compañero de entrenamiento.
Este estilo de juego está codificado dentro del compañero de entrenamiento como una variable latente u oculta que el agente debe estimar. Lo hace observando las diferencias en el comportamiento de su pareja. Este objetivo también requiere que su socio aprenda comportamientos distintos y reconocibles para transmitir estas diferencias al agente de IA receptor.
Aunque este método de inducir diversidad no es nuevo en el campo de la IA, el equipo amplió el concepto a los juegos colaborativos al aprovechar estos comportamientos distintos como diversos estilos de juego.
"El agente de IA tiene que observar el comportamiento de sus compañeros para identificar la entrada secreta que recibieron y tiene que adaptarse a estas diversas formas de jugar para desempeñarse bien en el juego. La idea es que esto daría como resultado un agente de IA que es bueno en jugar con diferentes estilos de juego", dice el primer autor y Ph.D. de la Universidad Carnegie Mellon. candidato Keane Lucas, quien dirigió los experimentos como ex pasante en el laboratorio.
Jugar con otros a diferencia de sí mismo
El equipo aumentó ese modelo anterior de Hanabi (el que habían probado con humanos en su experimento anterior) con el proceso de entrenamiento Any-Play. Para evaluar si el enfoque mejoraba la colaboración, los investigadores unieron el modelo con "extraños" (más de 100 modelos de Hanabi que nunca antes había visto y que fueron entrenados por algoritmos separados) en millones de partidas de dos jugadores.
Los emparejamientos de Any-Play superaron a todos los demás equipos, cuando esos equipos también estaban formados por socios que eran algorítmicamente diferentes entre sí. También obtuvo mejores resultados cuando se asoció con la versión original de sí mismo que no entrenó con Any-Play.
Los investigadores ven este tipo de evaluación, llamada juego cruzado entre algoritmos, como el mejor predictor de cómo se desempeñaría la IA cooperativa en el mundo real con los humanos. El juego cruzado entre algoritmos contrasta con las evaluaciones de uso más común que prueban un modelo contra copias de sí mismo o contra modelos entrenados por el mismo algoritmo.
"Argumentamos que esas otras métricas pueden ser engañosas y aumentar artificialmente el rendimiento aparente de algunos algoritmos. En su lugar, queremos saber, 'si simplemente incluye a un socio de la nada, sin conocimiento previo de cómo jugará , ¿qué tan bien puedes colaborar?' Creemos que este tipo de evaluación es más realista cuando se evalúa la IA cooperativa con otra IA, cuando no se puede probar con humanos", dice Allen.
De hecho, este trabajo no probó Any-Play con humanos. Sin embargo, la investigación publicada por DeepMind, simultánea al trabajo del laboratorio, utilizó un enfoque similar de entrenamiento en diversidad para desarrollar un agente de IA para jugar el juego colaborativo Overcooked con humanos. "El agente de IA y los humanos mostraron una cooperación notablemente buena, y este resultado nos lleva a creer que nuestro enfoque, que consideramos aún más generalizado, también funcionaría bien con los humanos", dice Allen. Facebook usó de manera similar la diversidad en el entrenamiento para mejorar la colaboración entre los agentes de IA de Hanabi, pero usó un algoritmo más complicado que requería modificaciones de las reglas del juego de Hanabi para ser manejable.
Si las puntuaciones de juego cruzado entre algoritmos son realmente buenos indicadores de la preferencia humana es todavía una hipótesis. Para recuperar la perspectiva humana en el proceso, los investigadores quieren tratar de correlacionar los sentimientos de una persona sobre una IA, como la desconfianza o la confusión, con los objetivos específicos utilizados para entrenar la IA. Descubrir estas conexiones podría ayudar a acelerar los avances en el campo.
"El desafío de desarrollar IA para que funcione mejor con humanos es que no podemos tener humanos en el circuito durante el entrenamiento diciéndole a la IA lo que les gusta y lo que no les gusta. Tomaría millones de horas y personalidades. Pero si pudiéramos encontrar algún tipo de proxy cuantificable para la preferencia humana, y tal vez la diversidad en el entrenamiento es uno de esos proxy, entonces tal vez hayamos encontrado una manera de superar este desafío", dice Allen.