Noam Brown es un científico investigador de inteligencia artificial de Facebook mientras termina su doctorado. en Carnegie Mellon. Crédito:Noam Brown
Un programa de inteligencia artificial desarrollado por la Universidad Carnegie Mellon en colaboración con Facebook AI ha derrotado a los principales profesionales del póquer Texas Hold'em sin límite para seis jugadores. la forma de póquer más popular del mundo.
La IA llamado Pluribus, derrotó al profesional de póquer Darren Elias, que tiene el récord de la mayoría de los títulos del World Poker Tour, y Chris "Jesus" Ferguson, ganador de seis eventos de la World Series of Poker. Cada profesional jugó por separado 5, 000 manos de póquer contra cinco copias de Pluribus.
En otro experimento con 13 profesionales, todos los cuales han ganado más de $ 1 millón jugando al póquer, Pluribus jugó cinco profesionales a la vez para un total de 10, 000 manos y de nuevo salió victorioso.
"Pluribus logró un rendimiento sobrehumano en el póquer multijugador, que es un hito reconocido en inteligencia artificial y en teoría de juegos que ha estado abierto durante décadas, "dijo Tuomas Sandholm, Angel Jordan Profesor de Ciencias de la Computación, que desarrolló Pluribus con Noam Brown, que está terminando su doctorado. en el Departamento de Ciencias de la Computación de Carnegie Mellon como científico investigador en Facebook AI. "Hasta ahora, Los hitos de la IA sobrehumana en el razonamiento estratégico se han limitado a la competencia entre dos partes. La capacidad de vencer a otros cinco jugadores en un juego tan complicado abre nuevas oportunidades para usar la IA para resolver una amplia variedad de problemas del mundo real ".
La revista publicará en línea un artículo de investigación que describe este logro en IA. Ciencias el jueves, 11 de julio 2019.
"Jugar un juego de seis jugadores en lugar de uno contra uno requiere cambios fundamentales en la forma en que la IA desarrolla su estrategia de juego, "dijo Brown, que se unió a Facebook AI el año pasado. "Estamos encantados con su desempeño y creemos que algunas de las estrategias de juego de Pluribus podrían incluso cambiar la forma en que los profesionales juegan".
Los algoritmos de Pluribus crearon algunas características sorprendentes en su estrategia. Por ejemplo, la mayoría de los jugadores humanos evitan las "apuestas de burro", es decir, terminar una ronda con una llamada, pero luego comenzar la siguiente ronda con una apuesta. Se ve como un movimiento débil que generalmente no tiene sentido estratégico. Pero Pluribus hizo apuestas donk con mucha más frecuencia que los profesionales a los que derrotó.
"Su principal fortaleza es su capacidad para utilizar estrategias mixtas, "Elías dijo la semana pasada mientras se preparaba para el evento principal de la Serie Mundial de Poker 2019." Eso es lo mismo que los humanos intentan hacer. Es una cuestión de ejecución para los humanos:hacer esto de una manera perfectamente aleatoria y hacerlo de manera consistente. La mayoría de la gente simplemente no puede ".
Pluribus registró una sólida victoria con significación estadística, que es particularmente impresionante dada su oposición, Dijo Elías. "El bot no solo estaba jugando contra algunos profesionales intermedios. Estaba jugando contra algunos de los mejores jugadores del mundo".
Michael "Gags" Gagliano, que ha ganado casi $ 2 millones en ganancias profesionales, también compitió contra Pluribus.
"Fue increíblemente fascinante jugar contra el bot de póquer y ver algunas de las estrategias que eligió", dijo Gagliano. "Hubo varias jugadas que los humanos simplemente no están haciendo en absoluto, especialmente en relación con el tamaño de su apuesta. Los bots / IA son una parte importante en la evolución del póquer, y fue increíble tener experiencia de primera mano en este gran paso hacia el futuro ".
Sandholm ha dirigido un equipo de investigación que estudia el póquer informático durante más de 16 años. Él y Brown desarrollaron anteriormente Libratus, que hace dos años venció de forma decisiva a cuatro profesionales del póquer que jugaban un total de 120, 000 manos de Texas Hold'em sin límite mano a mano, una versión del juego para dos jugadores.
Los juegos como el ajedrez y el Go han servido durante mucho tiempo como hitos para la investigación de la IA. En esos juegos, todos los jugadores conocen el estado del tablero de juego y todas las piezas. Pero el póquer es un desafío mayor porque es un juego de información incompleta; los jugadores no pueden estar seguros de qué cartas están en juego y los oponentes pueden y harán fanfarronear. Eso lo convierte en un desafío de IA más difícil y más relevante para muchos problemas del mundo real que involucran a múltiples partes y falta información.
Todas las IA que mostraron habilidades sobrehumanas en juegos de dos jugadores lo hicieron aproximándose a lo que se llama equilibrio de Nash. Nombrado en honor al ex alumno de Carnegie Mellon y premio Nobel John Forbes Nash Jr., un equilibrio de Nash es un par de estrategias (una por jugador) donde ningún jugador puede beneficiarse de cambiar de estrategia siempre que la estrategia del otro jugador siga siendo la misma. Aunque la estrategia de la IA garantiza solo un resultado no peor que un empate, la IA sale victoriosa si su oponente comete errores de cálculo y no puede mantener el equilibrio.
En un juego con más de dos jugadores, jugar un equilibrio de Nash puede ser una estrategia perdedora. Por lo tanto, Pluribus prescinde de garantías teóricas de éxito y desarrolla estrategias que, sin embargo, le permiten superar constantemente a sus oponentes.
Pluribus primero calcula una estrategia de "plano" reproduciendo seis copias de sí mismo, que es suficiente para la primera ronda de apuestas. Desde ese punto en adelante, Pluribus realiza una búsqueda más detallada de posibles movimientos en una abstracción más detallada del juego. Mira hacia adelante varios movimientos mientras lo hace, pero sin necesidad de mirar hacia el futuro hasta el final del juego, lo cual sería computacionalmente prohibitivo. La búsqueda anticipada limitada es un enfoque estándar en los juegos de información perfecta, pero es extremadamente desafiante en los juegos de información imperfecta. Un nuevo algoritmo de búsqueda de anticipación limitada es el principal avance que permitió a Pluribus lograr un póquer multijugador sobrehumano.
Específicamente, la búsqueda es una solución de juego de información imperfecta de un subjuego de anticipación limitada. En las hojas de ese subjuego, la IA considera cinco posibles estrategias de continuación que cada oponente y ella misma podría adoptar durante el resto del juego. El número de posibles estrategias de continuación es mucho mayor, pero los investigadores encontraron que su algoritmo solo necesita considerar cinco estrategias de continuación por jugador en cada hoja para calcular un fuerte, estrategia global equilibrada.
Pluribus también busca ser impredecible. Por ejemplo, las apuestas tendrían sentido si la IA tuviera la mejor mano posible, pero si la IA apuesta solo cuando tiene la mejor mano, los oponentes se darán cuenta rápidamente. Entonces, Pluribus calcula cómo actuaría con cada mano posible que pudiera sostener y luego calcula una estrategia que se equilibra en todas esas posibilidades.
Aunque el póquer es un juego increíblemente complicado, Pluribus hizo un uso eficiente de la computación. Las IA que han alcanzado hitos recientes en los juegos han utilizado una gran cantidad de servidores y / o granjas de GPU; Libratus utilizó alrededor de 15 millones de horas centrales para desarrollar sus estrategias y, durante el juego en vivo, usado 1, 400 núcleos de CPU. Pluribus calculó su estrategia de proyecto en ocho días utilizando solo 12, 400 horas de núcleo y usó solo 28 núcleos durante el juego en vivo.