Uno de los tres entornos de aprendizaje considerados, a saber, locomoción. En locomoción Los agentes aprenden a navegar en el entorno evitando obstáculos (rectángulos oscuros) y otros agentes. Crédito:Amine Boumaza.
Recombinación, la reordenación de materiales genéticos como resultado del apareamiento o de la combinación de segmentos de ADN de diferentes organismos, tiene numerosas ventajas evolutivas. Por ejemplo, permite a los organismos eliminar mutaciones deletéreas de sus genomas y asumir mutaciones más útiles.
Amine Boumaza, investigador de la Université de Lorraine, ha intentado recientemente aplicar este proceso a la robótica evolutiva incorporada en línea, un área de la robótica que se enfoca en replicar las teorías de la evolución en robots. En su papel, publicado en la revista GECCO '19 Proceedings of the Genetic and Evolutionary Computation Conference, desarrolló un operador de recombinación inspirado en la evolución y lo entrenó en tres tareas que requieren la colaboración entre múltiples robots.
"Mi investigación se enmarca en el tema más amplio de la IA, y mas especificamente, comprender cómo podemos diseñar agentes que puedan aprender a realizar tareas interesantes, "Dijo Boumaza." Este tema de investigación no es nuevo, pero bastante viejo, y recibió mucha atención últimamente debido a los impresionantes resultados del aprendizaje profundo. En mi caso, Me interesa más la robótica de enjambres, donde el objetivo es hacer que un gran número de pequeños robots cooperen para resolver una tarea y adaptarse a los cambios en su entorno ".
Fascinado por las estrategias evolutivas, particularmente la recombinación, que equipan mejor a los organismos vivos para afrontar los retos de la vida, Boumaza se propuso investigar si se podrían aplicar mecanismos similares a los enfoques robóticos. Su hipótesis era que si se replicaba con éxito en robots, la recombinación aumentaría su rendimiento y eficiencia.
"Cuando hablamos de agentes robóticos, generalmente asumimos una entidad física incorporada en un entorno (un robot aspirador en una habitación, por ejemplo), "Dijo Boumaza." Este agente percibe su entorno utilizando un conjunto de sensores (sensores de obstáculos, cámara, etc.), que puede darle algún tipo de representación de su entorno. El agente también puede actuar en el medio ambiente utilizando efectores (motores, brazos, cepillo de limpieza, etc.). Estas acciones son el resultado de un cálculo que es el resultado de lo que comúnmente llamamos un controlador (es decir, algún tipo de programa de decisión) ".
Uno de los tres entornos de aprendizaje considerados, a saber, colección de artículos. En la colección de artículos, Los agentes deben recolectar tantos elementos (puntos rojos) como sea posible. Crédito:Amine Boumaza.
Un controlador es esencialmente un programa que procesa las percepciones adquiridas por un robot a través de sus sensores y envía comandos a sus efectores. En el caso de una aspiradora robótica, por ejemplo, un controlador procesaría información sobre su entorno, detectar si hay polvo delante de él, luego producirá salidas que harán que el robot active la aspiradora y avance para aspirar el polvo.
"Dando un paso más, también podemos considerar múltiples agentes que pueden evolucionar en el mismo entorno, "Dijo Boumaza." Diseñar controladores para cada agente en tales entornos es un problema muy difícil para el que aún no existe una técnica eficiente. En este caso, podemos tener pocos (por ejemplo, 10 a 100) robots complejos, o muchos robots muy simples (p. ej., cientos) que interactúan de formas que generalmente se inspiran en el comportamiento de los insectos; eso es lo que llamamos robótica de enjambre ".
Al desarrollar un robot que pueda completar efectivamente una tarea en particular, los investigadores deben diseñar un controlador que se adapte a esa tarea específica. Si el entorno en el que debe operar el robot es simple, diseñar este controlador puede ser bastante fácil, sin embargo, la mayoría de las veces, Este no es el caso.
Esto se vuelve aún más difícil si no imposible, al considerar la interacción de varios robots en un entorno determinado. La razón principal de esto es que un desarrollador humano no puede predecir todas las situaciones que enfrentará cada robot, así como las acciones más efectivas para afrontar cada una de estas situaciones. Afortunadamente, en años recientes, Los avances en el aprendizaje automático han abierto nuevas e interesantes posibilidades para la investigación en robótica, permitiendo a los desarrolladores incorporar herramientas que permitan el aprendizaje continuo, esencialmente entrenar al controlador para lidiar con numerosas situaciones a lo largo del tiempo.
"Una forma de diseñar un controlador de esta manera es utilizar algoritmos evolutivos, cuales, vagamente hablando, tratar de imitar la evolución natural de las especies para desarrollar controladores de agentes robóticos, "Dijo Boumaza." Es un proceso iterativo donde, a medida que los animales se adaptan mejor a su entorno, el controlador mejora en la resolución de una tarea. El objetivo no es simular la evolución natural, sino más bien inspírate en él ".
Uno de los tres entornos de aprendizaje considerados, a saber, forrajeo. En la búsqueda de alimento, los agentes deben recolectar artículos y llevarlos de regreso al nido (uno de los dos círculos negros). El piso de color verde es un rastro de feromonas que agrega un sentido de dirección, está muy concentrado en las ubicaciones de los nidos y menos concentrado más lejos. Crédito:Amine Boumaza.
La robótica evolutiva es simplemente una de las muchas técnicas que los investigadores pueden utilizar para diseñar controladores de robots. En años recientes, sin embargo, Los enfoques evolutivos han ganado popularidad, con un número creciente de estudios dirigidos a replicar estrategias evolutivas observadas en animales y humanos.
"La robótica evolutiva tiene algunas ventajas, como el hecho de que no necesitamos especificar cómo resolver la tarea (el algoritmo lo descubre / aprende), pero simplemente necesita especificar una forma de medir qué tan bien se realiza la tarea, "Dijo Boumaza. También tiene algunos inconvenientes, ya que es un proceso muy lento y computacionalmente intensivo, que puede ser muy difícil de realizar en robots reales. Además, estos enfoques suelen ser muy sensibles a las medidas de desempeño, ya que condicionan la conducta aprendida por los agentes ".
Boumaza, como otros investigadores en el campo, ha estado tratando de desarrollar nuevos enfoques para superar las deficiencias de las técnicas de robótica evolutiva existentes. En su reciente estudio, propuso específicamente el uso de un nuevo "operador de apareamiento" inspirado por la recombinación, que puede mejorar la velocidad de convergencia en simulaciones de robots. Este es un logro notable, ya que, en última instancia, podría reducir el tiempo necesario para transferir un enfoque de simulaciones a robots reales.
Aplicó su operador de recombinación a tres tareas de robótica colectiva:locomoción, recolección de artículos y búsqueda de alimentos. Luego comparó el rendimiento logrado utilizando una versión puramente mutativa de su algoritmo con el de diferentes operadores de recombinación. Los resultados recopilados en sus experimentos sugieren que, cuando está diseñado correctamente, Las estrategias de recombinación pueden, de hecho, mejorar la adaptación de un enjambre de robots en todas las tareas que él consideró.
En el futuro, El nuevo enfoque de robótica evolutiva que propuso podría usarse para mejorar el rendimiento y la adaptabilidad de los robots en tareas que requieren la colaboración entre múltiples agentes. Mientras tanto, sin embargo, Boumaza planea probar su algoritmo en nuevas tareas, para determinar si la mejora que observó en las tres tareas en las que se centró aún se mantiene.
"También sería interesante comprobar si mi enfoque se puede implementar en robots reales, "Dijo Boumaza." En teoría, nada impide eso, excepto tener una gran cantidad de robots físicos y aceptar lidiar con la 'brecha de la realidad' (es decir, lo que vemos en la simulación generalmente no es lo que sucedería en la realidad, debido a las simplificaciones de la simulación. La robótica del enjambre tiene que ver con los números y las fallas de un solo robot no deberían obstaculizar el enjambre. Por último, por lo tanto, para determinar la validez de este enfoque, debe probarse en la realidad, en robots físicos ".
© 2019 Science X Network