Un modelo de inteligencia artificial desarrollado en el MIT y el Qatar Computing Research Institute que utiliza solo imágenes de satélite para etiquetar automáticamente las características de las carreteras en mapas digitales podría mejorar la navegación GPS. especialmente en países con datos cartográficos limitados. Crédito:Google Maps / MIT News
Un modelo inventado por investigadores del MIT y del Qatar Computing Research Institute (QCRI) que utiliza imágenes de satélite para etiquetar las características de las carreteras en mapas digitales podría ayudar a mejorar la navegación GPS.
Mostrar a los conductores más detalles sobre sus rutas a menudo puede ayudarlos a navegar en lugares desconocidos. Carril cuenta por ejemplo, puede habilitar un sistema GPS para advertir a los conductores de carriles que se desvían o se fusionan. La incorporación de información sobre lugares de estacionamiento puede ayudar a los conductores a planificar con anticipación, mientras que el mapeo de carriles para bicicletas puede ayudar a los ciclistas a negociar las concurridas calles de la ciudad. Proporcionar información actualizada sobre las condiciones de las carreteras también puede mejorar la planificación para la ayuda en casos de desastre.
Pero crear mapas detallados es costoso, proceso lento realizado principalmente por grandes empresas, como Google, que envía vehículos con cámaras atadas al capó para capturar videos e imágenes de las carreteras de un área. Combinar eso con otros datos puede crear datos precisos, mapas actualizados. Debido a que este proceso es caro, sin embargo, algunas partes del mundo se ignoran.
Una solución es liberar modelos de aprendizaje automático en imágenes de satélite, que son más fáciles de obtener y se actualizan con bastante regularidad, para etiquetar automáticamente las características de la carretera. Pero los caminos pueden estar ocluidos por, decir, árboles y edificios, convirtiéndolo en una tarea desafiante. En un artículo presentado en la conferencia de la Asociación para el Avance de la Inteligencia Artificial, los investigadores del MIT y QCRI describen "RoadTagger, "que utiliza una combinación de arquitecturas de redes neuronales para predecir automáticamente la cantidad de carriles y tipos de carreteras (residenciales o autopistas) detrás de las obstrucciones.
Al probar RoadTagger en carreteras ocluidas de mapas digitales de 20 ciudades de EE. UU., el modelo contaba los números de los carriles con una precisión del 77 por ciento y los tipos de carreteras inferidos con una precisión del 93 por ciento. Los investigadores también planean permitir que RoadTagger prediga otras características, como lugares de estacionamiento y carriles para bicicletas.
"La mayoría de los mapas digitales actualizados provienen de los lugares que más preocupan a las grandes empresas. Si estás en lugares que no les interesan mucho, estás en desventaja con respecto a la calidad del mapa, "dice el coautor Sam Madden, profesor del Departamento de Ingeniería Eléctrica e Informática (EECS) e investigador del Laboratorio de Informática e Inteligencia Artificial (CSAIL). "Nuestro objetivo es automatizar el proceso de generación de mapas digitales de alta calidad, para que estén disponibles en cualquier país ".
Los coautores del artículo son los estudiantes graduados de CSAIL Songtao He, Favyen Bastani, y Edward Park; Satvat Jagwani, estudiante de pregrado de EECS; Los profesores de CSAIL Mohammad Alizadeh y Hari Balakrishnan; e investigadores de QCRI Sanjay Chawla, Sofiane Abbar, y Mohammad Amin Sadeghi.
Combinando CNN y GNN
Quatar, donde se basa QCRI, "no es una prioridad para las grandes empresas que crean mapas digitales, "Madden dice. Sin embargo, constantemente está construyendo nuevas carreteras y mejorando las antiguas, especialmente en preparación para albergar la Copa Mundial de la FIFA 2022.
"Durante su visita a Qatar, hemos tenido experiencias en las que nuestro conductor de Uber no sabe cómo llegar a donde va, porque el mapa está muy mal "Dice Madden." Si las aplicaciones de navegación no tienen la información correcta, para cosas como la fusión de carriles, esto podría ser frustrante o peor ".
RoadTagger se basa en una combinación novedosa de una red neuronal convolucional (CNN), comúnmente utilizada para tareas de procesamiento de imágenes, y una red neuronal gráfica (GNN). Los GNN modelan las relaciones entre los nodos conectados en un gráfico y se han vuelto populares para analizar cosas como las redes sociales y la dinámica molecular. El modelo es "de un extremo a otro, "lo que significa que se alimenta solo con datos sin procesar y produce resultados automáticamente, sin intervención humana.
La CNN toma como entrada imágenes de satélite sin procesar de las carreteras objetivo. El GNN divide la carretera en segmentos de aproximadamente 20 metros, o "azulejos". Cada mosaico es un nodo de gráfico independiente, conectado por líneas a lo largo de la carretera. Para cada nodo, la CNN extrae características de la carretera y comparte esa información con sus vecinos inmediatos. La información de la carretera se propaga a lo largo de todo el gráfico, cada nodo recibe información sobre los atributos de la carretera en todos los demás nodos. Si un mosaico determinado está ocluido en una imagen, RoadTagger usa información de todos los mosaicos a lo largo de la carretera para predecir qué hay detrás de la oclusión.
Esta arquitectura combinada representa una intuición más humana, dicen los investigadores. Digamos que parte de una carretera de cuatro carriles está obstruida por árboles, por lo que ciertos mosaicos muestran solo dos carriles. Los humanos pueden suponer fácilmente que un par de carriles están ocultos detrás de los árboles. Modelos tradicionales de aprendizaje automático, digamos, sólo una CNN:extraiga las características de los mosaicos individuales y probablemente prediga que el mosaico ocluido es una carretera de dos carriles.
"Los humanos pueden usar la información de los mosaicos adyacentes para adivinar el número de carriles en los mosaicos ocluidos, pero las redes no pueden hacer eso, "Él dice." Nuestro enfoque intenta imitar el comportamiento natural de los humanos, donde capturamos información local de CNN e información global de GNN para hacer mejores predicciones ".
Aprendizaje de pesos
Para entrenar y probar RoadTagger, los investigadores utilizaron un conjunto de datos de mapas del mundo real, llamado OpenStreetMap, que permite a los usuarios editar y seleccionar mapas digitales de todo el mundo. De ese conjunto de datos, recopilaron atributos de carreteras confirmados de 688 kilómetros cuadrados de mapas de 20 ciudades de EE. UU., incluida Boston, Chicago Washington, y Seattle. Luego, recopilaron las imágenes de satélite correspondientes de un conjunto de datos de Google Maps.
Entrenando, RoadTagger aprende pesos, que asignan diversos grados de importancia a las funciones y conexiones de nodos, de CNN y GNN. La CNN extrae características de los patrones de píxeles de los mosaicos y la GNN propaga las características aprendidas a lo largo del gráfico. De subgrafos de la carretera seleccionados al azar, el sistema aprende a predecir las características de la carretera en cada mosaico. Al hacerlo, aprende automáticamente qué características de la imagen son útiles y cómo propagar esas características a lo largo del gráfico. Por ejemplo, si una loseta de destino tiene marcas de carril poco claras, pero su teja vecina tiene cuatro carriles con marcas de carril claras y comparte el mismo ancho de camino, entonces es probable que la loseta de destino también tenga cuatro carriles. En este caso, el modelo aprende automáticamente que el ancho de la carretera es una característica de imagen útil, por lo que si dos baldosas adyacentes comparten el mismo ancho de carretera, es probable que tengan el mismo recuento de carriles.
Dado un camino no visto en el entrenamiento de OpenStreetMap, el modelo divide el camino en mosaicos y usa los pesos aprendidos para hacer predicciones. Con la tarea de predecir un número de carriles en un mosaico ocluido, el modelo observa que los mosaicos vecinos tienen patrones de píxeles coincidentes y, por lo tanto, una alta probabilidad de compartir información. Entonces, si esas fichas tienen cuatro carriles, la loseta ocluida también debe tener cuatro.
En otro resultado, RoadTagger predijo con precisión los números de carriles en un conjunto de datos de interrupciones de la carretera altamente desafiantes. Como un ejemplo, un paso elevado con dos carriles cubría algunas baldosas de un camino objetivo con cuatro carriles. El modelo detectó patrones de píxeles no coincidentes del paso elevado, así que ignoró los dos carriles sobre las baldosas cubiertas, prediciendo con precisión cuatro carriles debajo.
Los investigadores esperan usar RoadTagger para ayudar a los humanos a validar y aprobar rápidamente modificaciones continuas a la infraestructura en conjuntos de datos como OpenStreetMap, donde muchos mapas no contienen recuentos de carriles u otros detalles. Un área de interés específica es Tailandia, Bastani dice, donde las carreteras cambian constantemente, pero hay pocas actualizaciones, si es que hay alguna, en el conjunto de datos.
"Las carreteras que alguna vez se etiquetaron como caminos de tierra se han pavimentado, por lo que es mejor conducir por ellas, y algunas intersecciones se han reconstruido por completo. Hay cambios cada año, pero los mapas digitales están desactualizados, " he says. "We want to constantly update such road attributes based on the most recent imagery."
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.