Concéntrese en un algoritmo de aprendizaje por refuerzo que pueda aprender del fracaso

Crédito:OpenAI

Las noticias recientes de la gente de OpenAI se tratan de un trío extra. Están lanzando nuevos entornos de gimnasio, un conjunto de entornos de robótica simulados basados en plataformas de robots reales, que incluyen una mano de sombra y un robot de investigación Fetch. dijo Espectro IEEE .

Además de ese kit de herramientas, están lanzando una versión de código abierto de Hindsight Experience Replay (HER). Como sugiere su nombre, ayuda a los robots a aprender retrospectivamente, para tareas robóticas basadas en objetivos.

Por último, si bien no menos importante, publicaron una serie de solicitudes de investigación en robótica. "Si eres ambicioso, "dijo Evan Ackerman en Espectro IEEE , "OpenAI también ha publicado una serie de solicitudes de investigación relacionada con HER".

"Aunque HER es una forma prometedora de aprender tareas complejas basadas en objetivos con recompensas escasas, como los entornos de robótica que proponemos aquí, todavía hay mucho margen de mejora, "escribieron en un blog". Al igual que en nuestras Solicitudes de investigación 2.0 publicadas recientemente, tenemos algunas ideas sobre formas de mejorar ELLA específicamente, y aprendizaje reforzado en general ".

OpenAI es una empresa de investigación de IA. Publican en conferencias de aprendizaje automático y sus publicaciones de blog comunican su investigación.

Elon Musk es cofundador. Está patrocinado por particulares y empresas, y su objetivo es descubrir y promulgar "el camino hacia la inteligencia artificial general segura".

El 26 de febrero se publicó un video de OpenAI que muestra lo que lograron en la sección de entornos de gimnasio.

Muestran las diferentes tareas realizadas. Un robot ShadowHand manipula un objeto (muestra una mano manipulando, incluyendo flexionar los dedos, bloque del alfabeto de un niño, un objeto con forma de huevo, y pasar los dedos por un palito). También están introduciendo un mecanismo de robot de "empuje" que puede deslizar un disco, así como agarrar una pequeña bola y levantarla.

Específicamente, estas son las diversas hazañas que se muestran:ShadowHand tiene que alcanzar con el pulgar y un dedo seleccionado hasta que se encuentren en la posición deseada por encima de la palma. ShadowHand tiene que manipular un bloque hasta que logre la posición deseada y la rotación. ShadowHand tiene que manipular un huevo hasta que logre la posición deseada y la rotación. ShadowHand tiene que manipular un bolígrafo hasta que logre la posición y la rotación deseadas.

Considerándolo todo, "los entornos más recientes simulan un brazo robótico Fetch para empujar cosas, y una ShadowHand para agarrar y manipular cosas con dedos robóticos, "dijo Katyanna Quach en El registro .

La oferta de OpenAI HER es especialmente interesante; el entrenamiento y el refuerzo se replantean. ELLA permite que un agente aprenda de las fallas. Como escribió Ackerman, ELLA "reformula los fracasos como éxitos para ayudar a los robots a aprender más como los humanos".

Jackie Snow en Revisión de tecnología del MIT observó que "lo hace al observar cómo cada intento de una tarea podría aplicarse a otras".

Snow agregó, "ELLA no otorga recompensas a los robots por hacer bien un paso de una tarea; solo los reparte si todo se hace correctamente".

¿Reformulando los fracasos como éxitos? Ackerman ofreció esta explicación:"Para entender cómo funciona ELLA, imagina que estás listo para batear en un juego de béisbol. Tu objetivo es pegar un jonrón. En el primer lanzamiento, golpeas una pelota que sale mal. ... también ha aprendido exactamente cómo golpear una bola de foul ... Con la repetición de la experiencia retrospectiva, decide aprender de lo que acaba de hacer de todos modos, esencialmente diciendo, 'Sabes, si hubiera querido pegarle una falta ¡Eso habría sido perfecto!'"

¿Qué tan buena es la implementación de HER? "Nuestros resultados muestran que ELLA puede aprender políticas exitosas sobre la mayoría de los nuevos problemas de robótica con recompensas escasas".

Los niños que juegan con los ojos vendados a menudo le dicen al jugador:"Te estás calentando, cálida. "Las palabras clave para apreciar su investigación son recompensas escasas y densas.

"La mayoría de los algoritmos de aprendizaje por refuerzo utilizan 'recompensas densas, 'explicó Ackerman, "donde el robot obtiene cookies de diferentes tamaños dependiendo de lo cerca que esté de completar una tarea ... Las recompensas escasas significan que el robot solo obtiene una cookie si tiene éxito, y eso es todo:más fácil de medir, más fácil de programar, y más fácil de implementar ".

Engañando al humano a través de cambios en las imágenes.

Atraco de Bitcoin:600 potentes ordenadores robados en Islandia

Electrónica