Gráficos que comparan los modelos de línea base (MLP, SCN, RNN, RCN) para los 4 entornos MuJoCo presentados en el documento (Humanoid-v2, HalfCheetah-v2, Walker2d-v2, Nadador-v2). Crédito:Liu et al.
Los generadores de patrones centrales (CPG) son circuitos neuronales biológicos que pueden producir salidas rítmicas coordinadas sin requerir entradas rítmicas. Las GPC son responsables de la mayoría de los movimientos rítmicos observados en los organismos vivos, como caminar, respirar o nadar.
Las herramientas para modelar eficazmente las salidas rítmicas cuando se dan entradas arrítmicas podrían tener aplicaciones importantes en una variedad de campos, incluida la neurociencia, robótica y medicina. En el aprendizaje por refuerzo, la mayoría de las redes existentes utilizadas para modelar tareas de locomotoras, como los modelos de línea de base de perceptrón multicapa (MLP), no generan salidas rítmicas en ausencia de entradas rítmicas.
Estudios recientes han propuesto el uso de arquitecturas que pueden dividir la política de una red en componentes lineales y no lineales, como las redes de control estructuradas (SCN), que superaron a los MLP en una variedad de entornos. Un SCN comprende un modelo lineal para control local y un módulo no lineal para control global, cuyos productos se combinan para producir la acción política. Sobre la base de trabajos anteriores con redes neuronales recurrentes (RNN) y SCN, Un equipo de investigadores de la Universidad de Stanford ha ideado recientemente un nuevo enfoque para modelar las GPC en el aprendizaje por refuerzo.
"Los CPG son circuitos neuronales biológicos capaces de producir salidas rítmicas en ausencia de entrada rítmica, "Ademi Adeniji, uno de los investigadores que realizó el estudio, le dijo a Tech Xplore. "Los enfoques existentes para modelar GPC en el aprendizaje por refuerzo incluyen el perceptrón multicapa (MLP), un simple, red neuronal totalmente conectada, y la red de control estructurado (SCN), que tiene módulos separados para control local y global. Nuestro objetivo de investigación fue mejorar estas líneas de base permitiendo que el modelo capture observaciones previas, haciéndolo menos propenso a errores por ruido de entrada ".
Captura de pantalla del entorno HalfCheetah. Crédito:Liu et al.
La red de control recurrente (RCN) desarrollada por Adeniji y sus colegas adopta la arquitectura de un SCN, pero usa un RNN vainilla para el control global. Esto permite que el modelo adquiera locales, control global y dependiente del tiempo.
"Como SCN, nuestro RCN divide el flujo de información en módulos lineales y no lineales, "Nathaniel Lee, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Intuitivamente, el módulo lineal, efectivamente una transformación lineal, aprende interacciones locales, mientras que el módulo no lineal aprende interacciones globales ".
Los enfoques de SCN utilizan un MLP como su módulo no lineal, mientras que el RCN ideado por los investigadores reemplaza este módulo por un RNN. Como resultado, su modelo adquiere una 'memoria' de observaciones pasadas, codificado por el estado oculto de la RNN, que luego utiliza para generar acciones futuras.
Los investigadores evaluaron su enfoque en la plataforma OpenAI Gym, un entorno de física para el aprendizaje por refuerzo, así como en dinámicas multiarticulares con tareas contractuales (Mu-JoCo). Su RCN igualó o superó a otros MLP y SCN de referencia en todos los entornos probados, aprender de manera efectiva el control local y global mientras adquiere patrones de secuencias anteriores.
Captura de pantalla del entorno humanoide. Crédito:Liu et al.
"Las GPC son responsables de una gran cantidad de patrones biológicos rítmicos, "Jason Zhao, otro investigador involucrado en el estudio, dijo. "La capacidad de modelar el comportamiento de las GPC se puede aplicar con éxito a campos como la medicina y la robótica. También esperamos que nuestra investigación destaque la eficacia del control local / global, así como las arquitecturas recurrentes para modelar la generación de patrones centrales en el aprendizaje por refuerzo".
Los hallazgos recopilados por los investigadores confirman el potencial de estructuras similares a SCN para modelar GPC para el aprendizaje por refuerzo. Su estudio también sugiere que los RNN son particularmente efectivos para modelar tareas de locomotoras y que separar los módulos de control lineales y no lineales puede mejorar significativamente el rendimiento de un modelo.
"Hasta aquí, solo entrenamos nuestro modelo usando estrategias evolutivas (ES), un optimizador fuera de gradiente, "dijo Vincent Liu, uno de los investigadores involucrados en el estudio. "En el futuro, planeamos explorar su desempeño al entrenarlo con optimización de políticas próximas (PPO), un optimizador en gradiente. Adicionalmente, Los avances en el procesamiento del lenguaje natural han demostrado que las redes neuronales convolucionales son sustitutos efectivos de las redes neuronales recurrentes. tanto en rendimiento como en cálculo. Por lo tanto, podríamos considerar experimentar con una arquitectura de red neuronal de retardo de tiempo, que aplica una convolución 1-D a lo largo del eje de tiempo de observaciones pasadas ".
© 2019 Science X Network