Crédito:CC0 Public Domain
Un equipo de investigación dirigido por el profesor LI Huiyun de los Institutos de Tecnología Avanzada de Shenzhen (SIAT) de la Academia de Ciencias de China introdujo un algoritmo simple de aprendizaje por refuerzo profundo (DRL) con técnica de arranque m-out-of-n y agregados múltiples deterministas profundos Estructuras de algoritmos de gradiente de políticas (DDPG).
Denominado "multi-DDPG agregado bootstrapped" (BAMDDPG), el nuevo algoritmo aceleró el proceso de entrenamiento y aumentó el rendimiento en el área de la investigación artificial inteligente.
Los investigadores probaron su algoritmo en un robot 2-D y un simulador de coche de carreras abierto (TORCS). Los resultados del experimento en el juego de brazos robóticos en 2-D mostraron que la recompensa obtenida por la política agregada fue entre un 10% y un 50% mejor que la obtenida por las subpolíticas. y los resultados del experimento en TORCS demostraron que el nuevo algoritmo podría aprender políticas de control exitosas con menos tiempo de entrenamiento en un 56,7%.
El algoritmo DDPG que opera sobre un espacio continuo de acciones ha atraído una gran atención para el aprendizaje por refuerzo. Sin embargo, la estrategia de exploración a través de la programación dinámica dentro del espacio de estado de creencias bayesianas es bastante ineficiente incluso para sistemas simples. Por lo general, esto da como resultado la falla del bootstrap estándar cuando se aprende una política óptima.
El algoritmo propuesto utiliza el búfer de reproducción de experiencia centralizado para mejorar la eficiencia de la exploración. Bootstrap M-out-of-n con inicialización aleatoria produce estimaciones de incertidumbre razonables a bajo costo computacional, ayudando en la convergencia de la formación. El DDPG de arranque y agregado propuesto puede reducir el tiempo de aprendizaje.
BAMDDPG permite que cada agente use experiencias encontradas por otros agentes. Esto hace que el entrenamiento de las subpolíticas de BAMDDPG sea más eficiente ya que cada agente posee una visión más amplia y más información ambiental.
Este método es efectivo para los datos de entrenamiento secuenciales e iterativos, donde los datos exhiben una distribución de cola larga, en lugar de la distribución normal implicada por el supuesto de datos independientes distribuidos de forma idéntica. Puede aprender las políticas óptimas con mucho menos tiempo de entrenamiento para tareas con espacio continuo de acciones y estados.
El estudio, titulado "Aprendizaje por refuerzo de conjuntos profundos con múltiples algoritmos de gradiente de políticas deterministas profundas, "fue publicado en Hindawi .