Crédito:openai
Los investigadores han sido noticia al permitir que sus ambiciones de inteligencia artificial se desarrollen en un formidable juego de escondite con resultados formidables. El entorno de los agentes contaba con paredes y cajas móviles para un desafío donde unos eran los escondidos y otros, buscadores. Pasaron muchas cosas en el camino con sorpresas.
Declarando lo aprendido, los autores escribieron en su blog:"Hemos observado que los agentes descubren un uso de herramientas cada vez más complejo mientras juegan un juego simple de escondite, "donde los agentes construyeron" una serie de seis estrategias y contraestrategias distintas, algunos de los cuales no sabíamos que nuestro entorno los apoyaba ".
En un nuevo artículo publicado a principios de esta semana, el equipo reveló resultados. Su papel "Uso emergente de herramientas de los autocurrículos de agentes múltiples, "tenía siete autores, seis de los cuales tenían una representación de OpenAI en la lista, y uno, Google Brain.
Los autores comentaron qué tipo de desafío estaban asumiendo. "La creación de agentes artificiales inteligentes que puedan resolver una amplia variedad de tareas complejas relevantes para el ser humano ha sido un desafío de larga data en la comunidad de inteligencia artificial".
El equipo dijo que "encontramos que los agentes crean un auto-currículo supervisado que induce múltiples rondas distintas de estrategia emergente, muchos de los cuales requieren el uso y la coordinación de herramientas sofisticadas ".
A través del escondite (1) Los buscadores aprendieron a perseguir a los escondidos y los escondidos aprendieron a huir (2) Los escondidos aprendieron el uso básico de herramientas:cajas y muros para construir fuertes. (3) Los buscadores aprendieron a usar rampas para saltar al refugio de los escondidos (4) Los escondidos aprendieron a mover rampas lejos de donde construirán su fuerte, y bloquearlos en su lugar (5) Los buscadores aprendieron que pueden saltar de rampas cerradas a cajas y navegar desde la caja hasta el refugio de los escondidos y (6) Los escondidos aprendieron a cerrar las cajas sin usar antes de construir su fuerte.
Estas seis estrategias surgieron cuando los agentes se entrenaron unos contra otros en el escondite:cada nueva estrategia creó una presión previamente inexistente para que los agentes avanzaran a la siguiente etapa. sin incentivos directos para que los agentes interactúen con objetos o exploren. Las estrategias fueron el resultado del "autocurrículo" inducido por la competencia de múltiples agentes y la dinámica del escondite.
Los autores del blog dijeron que aprendieron que "es muy frecuente que los agentes encuentren una manera de explotar el entorno que usted construye o el motor de física de una manera no deseada".
Lo que estaba sucediendo era una "complejidad emergente auto-supervisada". Y esto "sugiere además que la coadaptación de múltiples agentes puede algún día producir un comportamiento extremadamente complejo e inteligente". Los autores declararon de manera similar en su artículo que "inducir el autocurrículo en entornos abiertos y con base física podría eventualmente permitir a los agentes adquirir un número ilimitado de habilidades relevantes para el ser humano".
Douglas Heaven, Científico nuevo , realmente despertó el interés de los lectores en la forma en que describió lo que sucedió:
"En primer lugar, los escondidos simplemente huyeron. Pero, Pronto se dieron cuenta de que la forma más rápida de confundir a los buscadores era encontrar objetos en el entorno para esconderse de la vista. usándolos como una especie de herramienta. Por ejemplo, aprendieron que las cajas se pueden usar para bloquear puertas y construir escondites simples. Los buscadores aprendieron que podían mover una rampa y usarla para escalar paredes. Luego, los bots descubrieron que ser un jugador de equipo (pasarse objetos entre sí o colaborar en un escondite) era la forma más rápida de ganar ".
Este fue un proyecto ambicioso. Examinando su trabajo, Revisión de tecnología del MIT señaló que la IA aprendió a usar herramientas después de casi 500 millones de juegos de escondite. A través de jugar al escondite cientos de millones de rondas, dos equipos opuestos de agentes de IA desarrollaron complejas estrategias de búsqueda y ocultación.
Karen Hao presentó un marcador interesante de lo que los agentes aprendieron después de cuántas rondas:"... alrededor de la marca de 25 millones de juegos, el juego se volvió más sofisticado. Los escondidos aprendieron a mover y cerrar las cajas y barricadas en el entorno para construir fuertes a su alrededor para que los buscadores nunca los vieran ".
Más millones de rondas:los buscadores descubrieron una contraestrategia, mientras aprendían a mover una rampa al lado del fuerte de los escondidos y usarla para escalar las murallas. Más rondas después, los escondidos aprendieron a bloquear las rampas en su lugar antes de construir su fuerte.
Sin embargo, aparecieron más estrategias en la marca de los 380 millones de juegos. Surgieron dos estrategias más. Los buscadores desarrollaron una estrategia para irrumpir en el fuerte de los escondidos mediante el uso de una rampa cerrada para subir a una caja desbloqueada. luego "surfear" su camino en la parte superior de la caja hacia el fuerte y sobre sus muros. En la fase final, los escondidos aprendieron una vez más a bloquear todas las rampas y cajas en su lugar antes de construir su fuerte.
Hao citó a Bowen Baker, uno de los autores del artículo. "No les dijimos a los escondidos ni a los buscadores que corrieran cerca de una caja o interactuaran con ella ... Pero a través de la competencia de múltiples agentes, crearon nuevas tareas el uno para el otro, de modo que el otro equipo tuvo que adaptarse ".
Piénsalo. Baker dijo que no le dijeron a los escondidos, y no le dijeron a los buscadores, correr cerca de cajas ni interactuar con ellas.
Devin Coldewey en TechCrunch pensé en eso. "El estudio pretendía, y examinó con éxito la posibilidad de que los agentes de aprendizaje automático aprendan de manera sofisticada, técnicas relevantes para el mundo real sin ninguna interferencia de sugerencias de los investigadores ".
Coldewey se llevó a casa todo este trabajo. "Como explican los autores del artículo, así es como nacimos ".
Nosotros, como en los seres humanos. Coldewey citó un pasaje de su artículo.
"La gran cantidad de complejidad y diversidad en la Tierra evolucionó debido a la coevolución y competencia entre organismos, dirigido por la selección natural. Cuando surge una nueva estrategia o mutación exitosa, cambia la distribución implícita de tareas que los agentes vecinos deben resolver y crea una nueva presión de adaptación. Estas carreras armamentistas evolutivas crean autocurrículas implícitas mediante las cuales los agentes en competencia crean continuamente nuevas tareas para los demás ".
© 2019 Science X Network