Partiendo de un juego aleatorio y sin conocimientos de dominio excepto las reglas del juego, AlphaZero derrotó de manera convincente a un programa de campeones mundiales en las partidas de ajedrez y shogi (ajedrez japonés), así como a Go. Crédito:DeepMind Technologies Ltd
Un equipo de investigadores del grupo DeepMind y University College, ambos en el Reino Unido, ha desarrollado un sistema de inteligencia artificial capaz de aprender a jugar y dominar tres juegos de mesa difíciles. En su artículo publicado en la revista Ciencias , el grupo describe su nuevo sistema y explica por qué creen que representa otro gran paso adelante en el desarrollo de sistemas de IA. Murray Campbell, del T.J Watson Research Center en los EE. UU., Ofrece un artículo en perspectiva sobre el trabajo realizado por el equipo en el mismo número de la revista.
Han pasado más de 20 años desde que una supercomputadora conocida como Deep Blue venció al campeón mundial de ajedrez Gary Kasparov, mostrando al mundo lo lejos que había llegado la informática de IA. En los años posteriores, Las computadoras se han vuelto cada vez más inteligentes y ahora vencieron a los humanos en juegos como el ajedrez, shogi y Go. Pero todos estos sistemas se han modificado para que sean realmente buenos en un solo juego. En este nuevo esfuerzo, los investigadores han creado un sistema de inteligencia artificial que no solo es bueno en más de un juego, pero adquiere esa experiencia por sí solo.
El nuevo sistema, llamado AlphaZero, es un sistema de aprendizaje por refuerzo, cuales, como su nombre lo indica, significa que aprende jugando un juego repetidamente y aprendiendo de sus experiencias. Este es, por supuesto, muy similar a cómo aprenden los humanos. Se establece un conjunto básico de reglas y luego la computadora juega el juego consigo misma. Ni siquiera necesita jugar con otros compañeros. Se reproduce a sí mismo repetidamente, observando qué jugadas constituyen buenas jugadas y, por lo tanto, ganando, y que constituyen malas jugadas y pérdidas. Tiempo extraordinario, mejora. Finalmente, se vuelve tan bueno que puede vencer no solo a los humanos, pero otros sistemas de inteligencia artificial dedicados a juegos de mesa. El sistema también utilizó un método de búsqueda conocido como búsqueda de árbol de Monte Carlo. La combinación de las dos tecnologías permite que el sistema se enseñe a sí mismo cómo mejorar en el juego. Los investigadores le dieron a su sistema de prueba mucho poder, así como, empleando 5000 unidades de procesamiento tensorial, lo que lo pone a la par con las grandes supercomputadoras.
Evaluación de torneo de AlphaZero en ajedrez, shogi, y ve, como los juegos ganaron, dibujado o perdido desde la perspectiva de AlphaZero, en partidos contra Stockfish, Elmo, y AlphaGo Zero (AG0) que se entrenó durante tres días. Crédito:DeepMind Technologies Ltd
Hasta ahora, AlphaZero ha dominado el ajedrez, shogi y Go:juegos que se adaptan especialmente bien a las aplicaciones de inteligencia artificial. Campbell sugiere que el siguiente paso para tales sistemas podría ser diversificarse en juegos como el póquer, o incluso videojuegos populares.
AlphaZero busca solo una pequeña fracción de las posiciones consideradas por los motores de ajedrez tradicionales. Crédito:DeepMind Technologies Ltd
© 2018 Science X Network