DeepRole, un robot de juegos inventado por el MIT equipado con "razonamiento deductivo, ”Puede vencer a jugadores humanos en complicados juegos multijugador en línea donde los roles y motivos de los jugadores se mantienen en secreto. Crédito:Instituto de Tecnología de Massachusetts
Los investigadores del MIT han desarrollado un bot equipado con inteligencia artificial que puede vencer a los jugadores humanos en complicados juegos multijugador en línea donde los roles y motivos de los jugadores se mantienen en secreto.
Se han creado muchos bots de juegos para mantenerse al día con los jugadores humanos. A principios de este año, un equipo de la Universidad Carnegie Mellon desarrolló el primer bot del mundo que puede vencer a los profesionales del póquer multijugador. AlphaGo de DeepMind fue noticia en 2016 por superar a un jugador profesional de Go. También se han creado varios bots para vencer a los jugadores de ajedrez profesionales o unir fuerzas en juegos cooperativos como capturar la bandera en línea. En estos juegos, sin embargo, el bot conoce a sus oponentes y compañeros de equipo desde el principio.
En la Conferencia sobre sistemas de procesamiento de información neuronal el próximo mes, los investigadores presentarán DeepRole, el primer robot de juegos que puede ganar juegos multijugador en línea en los que las lealtades del equipo de los participantes inicialmente no están claras. El bot está diseñado con un novedoso "razonamiento deductivo" agregado a un algoritmo de IA comúnmente utilizado para jugar al póquer. Esto le ayuda a razonar sobre acciones parcialmente observables, para determinar la probabilidad de que un jugador determinado sea un compañero de equipo o un oponente. Al hacerlo, aprende rápidamente con quién aliarse y qué acciones tomar para asegurar la victoria de su equipo.
Los investigadores enfrentaron a DeepRole contra jugadores humanos en más de 4, 000 rondas del juego en línea "The Resistance:Avalon". En este juego, los jugadores intentan deducir los roles secretos de sus compañeros a medida que avanza el juego, al mismo tiempo que ocultan sus propios roles. Como compañero de equipo y oponente, DeepRole superó constantemente a los jugadores humanos.
"Si reemplaza a un compañero de equipo humano por un bot, puede esperar una mayor tasa de victorias para su equipo. Los bots son mejores socios "dice el primer autor Jack Serrino '18, que se especializó en ingeniería eléctrica e informática en el MIT y es un ávido jugador en línea de "Avalon".
El trabajo es parte de un proyecto más amplio para modelar mejor cómo los humanos toman decisiones socialmente informadas. Hacerlo podría ayudar a construir robots que comprendan mejor aprende de, y trabajar con humanos.
"Los seres humanos aprenden de los demás y cooperan con ellos, y eso nos permite lograr juntos cosas que ninguno de nosotros puede lograr solo, "dice el coautor Max Kleiman-Weiner, un postdoctorado en el Center for Brains, Minds and Machines y el Departamento de Ciencias Cerebrales y Cognitivas del MIT, y en la Universidad de Harvard. "Juegos como" Avalon "imitan mejor los entornos sociales dinámicos que los seres humanos experimentan en la vida cotidiana. Tienes que averiguar quién está en tu equipo y trabajará contigo, ya sea su primer día de jardín de infantes u otro día en su oficina ".
Junto a Serrino y Kleiman-Weiner en el artículo están David C. Parkes de Harvard y Joshua B. Tenenbaum, profesor de ciencia cognitiva computacional y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y del Centro de Cerebros, Mentes y Máquinas.
Bot deductivo
En "Avalon, "tres jugadores son asignados al azar y en secreto a un equipo de" resistencia "y dos jugadores a un equipo de" espías ". Ambos jugadores espías conocen los roles de todos los jugadores. Durante cada ronda, un jugador propone un subconjunto de dos o tres jugadores para ejecutar una misión. Todos los jugadores votan simultánea y públicamente para aprobar o desaprobar el subconjunto. Si la mayoría lo aprueba, el subconjunto determina en secreto si la misión tendrá éxito o fracasará. Si se eligen dos "triunfos", la misión tiene éxito; si se selecciona una "falla", la misión falla. Los jugadores de la Resistencia siempre deben elegir tener éxito, pero los jugadores espías pueden elegir cualquier resultado. El equipo de resistencia gana después de tres misiones exitosas; el equipo de espías gana después de tres misiones fallidas.
Ganar el juego básicamente se reduce a deducir quién es la resistencia o el espía, y votando por tus colaboradores. Pero eso es en realidad más complejo computacionalmente que jugar al ajedrez y al póquer. "Es un juego de información imperfecta, ", Dice Kleiman-Weiner." Ni siquiera estás seguro de contra quién estás cuando empiezas, por lo que hay una fase de descubrimiento adicional para encontrar con quién cooperar ".
DeepRole utiliza un algoritmo de planificación de juegos llamado "minimización de arrepentimiento contrafactual" (CFR), que aprende a jugar un juego jugando contra sí mismo repetidamente, aumentado con razonamiento deductivo. En cada punto de un juego, CFR mira hacia el futuro para crear un "árbol de juego" de decisiones de líneas y nodos que describan las posibles acciones futuras de cada jugador. Los árboles de juego representan todas las acciones posibles (líneas) que cada jugador puede realizar en cada punto de decisión futuro. Al realizar potencialmente miles de millones de simulaciones de juegos, CFR señala qué acciones aumentaron o disminuyeron sus posibilidades de ganar, y revisa iterativamente su estrategia para incluir más buenas decisiones. Finalmente, planea una estrategia óptima que, lo peor, empates contra cualquier oponente.
CFR funciona bien para juegos como el póquer, con acciones públicas, como apostar dinero y retirar una mano, pero lucha cuando las acciones son secretas. El CFR de los investigadores combina acciones públicas y consecuencias de acciones privadas para determinar si los jugadores son resistencia o espías.
El bot se entrena jugando contra sí mismo como resistencia y como espía. Al jugar un juego en línea, utiliza su árbol de juego para estimar lo que va a hacer cada jugador. El árbol del juego representa una estrategia que le da a cada jugador la mayor probabilidad de ganar como rol asignado. Los nodos del árbol contienen "valores contrafactuales, "que son básicamente estimaciones de una recompensa que recibe el jugador si juega esa estrategia determinada.
En cada misión, el bot observa cómo jugó cada persona en comparación con el árbol del juego. Si, a lo largo del juego, un jugador toma suficientes decisiones que son inconsistentes con las expectativas del bot, entonces el jugador probablemente está jugando como el otro rol. Finalmente, el bot asigna una alta probabilidad al rol de cada jugador. Estas probabilidades se utilizan para actualizar la estrategia del bot para aumentar sus posibilidades de victoria.
Simultaneamente, utiliza esta misma técnica para estimar cómo un observador en tercera persona podría interpretar sus propias acciones. Esto le ayuda a estimar cómo pueden reaccionar otros jugadores, ayudándolo a tomar decisiones más inteligentes. "Si se trata de una misión para dos jugadores que falla, los otros jugadores saben que un jugador es un espía. El bot probablemente no propondrá el mismo equipo en futuras misiones, ya que sabe que los otros jugadores piensan que es malo, "Dice Serrino.
Idioma:la próxima frontera
Curiosamente, el bot no necesitaba comunicarse con otros jugadores, que suele ser un componente clave del juego. "Avalon" permite a los jugadores chatear en un módulo de texto durante el juego. "Pero resulta que nuestro bot pudo trabajar bien con un equipo de otros humanos mientras solo observaba las acciones de los jugadores, ", Dice Kleiman-Weiner." Esto es interesante, porque uno podría pensar que juegos como este requieren estrategias de comunicación complicadas ".
Próximo, los investigadores pueden permitir que el bot se comunique durante los juegos con texto simple, como decir que un jugador es bueno o malo. Eso implicaría asignar texto a la probabilidad correlacionada de que un jugador se resista o sea espía, que el bot ya utiliza para tomar sus decisiones. Más allá de eso, un bot futuro podría estar equipado con capacidades de comunicación más complejas, permitiéndole jugar juegos de deducción social con mucho lenguaje, como el popular juego "Hombre lobo", que implica varios minutos de discusión y persuadir a otros jugadores sobre quién está en los equipos buenos y malos.
"El idioma es definitivamente la próxima frontera, "Dice Serrino." Pero hay muchos desafíos para atacar en esos juegos, donde la comunicación es tan clave ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.