Para la entrega de última milla, Los robots del futuro pueden usar un nuevo algoritmo MIT para encontrar la puerta de entrada, utilizando pistas en su entorno. Crédito:MIT News
En un futuro no muy lejano, los robots pueden enviarse como vehículos de entrega de última milla para dejar su pedido para llevar, paquete, o suscripción a un kit de comida en la puerta de su casa, si pueden encontrar la puerta.
Los enfoques estándar para la navegación robótica implican mapear un área con anticipación, luego, usando algoritmos para guiar a un robot hacia un objetivo específico o una coordenada GPS en el mapa. Si bien este enfoque puede tener sentido para explorar entornos específicos, como el diseño de un edificio en particular o una carrera de obstáculos planificada, puede volverse difícil de manejar en el contexto de la entrega de última milla.
Imagina, por ejemplo, tener que mapear por adelantado cada vecindario dentro de la zona de entrega de un robot, incluyendo la configuración de cada casa dentro de ese vecindario junto con las coordenadas específicas de la puerta de entrada de cada casa. Una tarea así puede ser difícil de escalar a una ciudad entera, particularmente porque el exterior de las casas a menudo cambia con las estaciones. El mapeo de cada casa también podría generar problemas de seguridad y privacidad.
Ahora, los ingenieros del MIT han desarrollado un método de navegación que no requiere mapear un área por adelantado. En lugar de, su enfoque permite que un robot use pistas en su entorno para planificar una ruta a su destino, que se puede describir en términos semánticos generales, como "puerta de entrada" o "garaje, "en lugar de como coordenadas en un mapa. Por ejemplo, si un robot recibe instrucciones de entregar un paquete en la puerta de entrada de alguien, podría comenzar en la carretera y ver un camino de entrada, que ha sido entrenado para reconocer como probable que conduzca hacia una acera, que a su vez es probable que conduzca a la puerta de entrada.
La nueva técnica puede reducir en gran medida el tiempo que un robot pasa explorando una propiedad antes de identificar su objetivo. y no se basa en mapas de residencias específicas.
"No quisiéramos tener que hacer un mapa de cada edificio que tendríamos que visitar, "dice Michael Everett, estudiante de posgrado en el Departamento de Ingeniería Mecánica del MIT. "Con esta técnica, esperamos dejar caer un robot al final de cualquier camino de entrada y que encuentre una puerta ".
Everett presentará los resultados del grupo esta semana en la Conferencia Internacional sobre Robots y Sistemas Inteligentes. El papel, que es coautor de Jonathan How, profesor de aeronáutica y astronáutica en el MIT, y Justin Miller de Ford Motor Company, es finalista del "Mejor artículo para robots cognitivos".
"Un sentido de lo que son las cosas"
En años recientes, los investigadores han trabajado en la introducción de lenguaje semántico a sistemas robóticos, entrenar a los robots para que reconozcan objetos por sus etiquetas semánticas, para que puedan procesar visualmente una puerta como una puerta, por ejemplo, y no simplemente como un sólido, obstáculo rectangular.
"Ahora tenemos la capacidad de dar a los robots una idea de lo que son las cosas, en tiempo real, "Dice Everett.
Everett, Cómo, y Miller están utilizando técnicas semánticas similares como trampolín para su nuevo enfoque de navegación, que aprovecha algoritmos preexistentes que extraen características de datos visuales para generar un nuevo mapa de la misma escena, representado como pistas semánticas, o contexto.
En su caso, los investigadores utilizaron un algoritmo para construir un mapa del entorno a medida que el robot se movía, utilizando las etiquetas semánticas de cada objeto y una imagen de profundidad. Este algoritmo se denomina SLAM semántico (localización y mapeo simultáneos).
Mientras que otros algoritmos semánticos han permitido a los robots reconocer y mapear objetos en su entorno por lo que son, no han permitido que un robot tome decisiones en el momento mientras navega por un nuevo entorno, en el camino más eficiente para llevar a un destino semántico como una "puerta de entrada".
"Antes, explorar fue solo, Deje caer un robot y diga 'vamos, "y se moverá y, finalmente, llegará allí, pero será lento "Cómo dice.
El costo de ir
Los investigadores buscaron acelerar la planificación de la ruta de un robot a través de una semántica, mundo coloreado por el contexto. Desarrollaron un nuevo "estimador de costos para llevar, "un algoritmo que convierte un mapa semántico creado por algoritmos SLAM preexistentes en un segundo mapa, que representa la probabilidad de que una ubicación determinada esté cerca de la meta.
"Esto se inspiró en la traducción de imagen a imagen, donde tomas una foto de un gato y lo haces parecer un perro, ", Dice Everett." El mismo tipo de idea ocurre aquí cuando tomas una imagen que parece un mapa del mundo, y convertirlo en esta otra imagen que se parece al mapa del mundo, pero que ahora está coloreada según lo cerca que están los diferentes puntos del mapa del objetivo final ".
Este mapa de costo para llevar está coloreado, en escala de grises, para representar regiones más oscuras como ubicaciones lejos de un objetivo, y regiones más claras como áreas cercanas a la meta. Por ejemplo, la acera, codificado en amarillo en un mapa semántico, podría traducirse mediante el algoritmo de costo para llevar como una región más oscura en el nuevo mapa, comparado con un camino de entrada, que es progresivamente más clara a medida que se acerca a la puerta principal, la región más clara en el nuevo mapa.
Los investigadores entrenaron este nuevo algoritmo en imágenes de satélite de Bing Maps que contienen 77 casas de un barrio urbano y tres barrios suburbanos. El sistema convirtió un mapa semántico en un mapa de costo para llevar, y trazó el camino más eficiente, siguiendo regiones más claras en el mapa, hasta el objetivo final. Para cada imagen de satélite, Everett asignó etiquetas semánticas y colores a las características del contexto en un patio delantero típico, como el gris para una puerta de entrada, azul para un camino de entrada, y verde como seto.
Durante este proceso de formación, El equipo también aplicó máscaras a cada imagen para imitar la vista parcial que probablemente tendría la cámara de un robot al atravesar un metro.
"Parte del truco de nuestro enfoque fue [dar al sistema] muchas imágenes parciales, "Cómo explica". Así que realmente tenía que averiguar cómo se interrelacionaban todas estas cosas. Eso es parte de lo que hace que esto funcione de manera sólida ".
Luego, los investigadores probaron su enfoque en una simulación de una imagen de una casa completamente nueva, fuera del conjunto de datos de entrenamiento, primero usando el algoritmo SLAM preexistente para generar un mapa semántico, luego aplicando su nuevo estimador de costos para generar un segundo mapa, y camino hacia una meta, en este caso, la puerta delantera.
La nueva técnica de costo para llevar del grupo encontró la puerta de entrada un 189 por ciento más rápida que los algoritmos de navegación clásicos, que no tienen en cuenta el contexto ni la semántica, y en su lugar gasta pasos excesivos explorando áreas que es poco probable que estén cerca de su objetivo.
Everett dice que los resultados ilustran cómo los robots pueden usar el contexto para ubicar un objetivo de manera eficiente, incluso en desconocidos, entornos no cartografiados.
"Incluso si un robot entrega un paquete a un entorno en el que nunca ha estado, puede haber pistas que sean las mismas que en otros lugares donde ha visto, ", Dice Everett." Por lo tanto, el mundo puede presentarse de manera un poco diferente, pero probablemente haya algunas cosas en común ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.