Fig. 1. Comparación de conjuntos de datos anotados manualmente y conjuntos de datos sintéticos generados automáticamente. El método convencional requiere que las imágenes se etiqueten a mano cuando se produce el conjunto de entrenamiento, mientras que nuestro sistema propuesto puede crear automáticamente datos sintéticos con anotaciones de instancias utilizando activos digitales de un gemelo digital de la ciudad. Crédito:Revista de diseño e ingeniería computacional (2022). DOI:10.1093/jcde/qwac086
Los motores de juegos se desarrollaron originalmente para construir mundos imaginarios para el entretenimiento. Sin embargo, estos mismos motores se pueden utilizar para construir copias de entornos reales, es decir, gemelos digitales. Investigadores de la Universidad de Osaka han encontrado una manera de utilizar las imágenes generadas automáticamente por los gemelos de ciudades digitales para entrenar modelos de aprendizaje profundo que pueden analizar de manera eficiente imágenes de ciudades reales y separar con precisión los edificios que aparecen en ellas.
Una red neuronal convolucional es una red neuronal de aprendizaje profundo diseñada para procesar matrices estructuradas de datos, como imágenes. Tales avances en el aprendizaje profundo han cambiado fundamentalmente la forma en que se realizan las tareas, como la segmentación arquitectónica. Sin embargo, un modelo preciso de red neuronal convolucional profunda (DCNN) necesita un gran volumen de datos de entrenamiento etiquetados y etiquetar estos datos puede ser una tarea manual lenta y extremadamente costosa.
Para crear los datos sintéticos de ciudades gemelas digitales, los investigadores utilizaron un modelo de ciudad en 3D de la plataforma PLATEAU, que contiene modelos en 3D de la mayoría de las ciudades japonesas con un nivel de detalle extremadamente alto. Cargaron este modelo en el motor de juego de Unity y crearon una configuración de cámara en un automóvil virtual, que condujo por la ciudad y adquirió las imágenes de datos virtuales en diversas condiciones climáticas y de iluminación. Luego se utilizó la API de Google Maps para obtener imágenes reales a pie de calle de la misma área de estudio para los experimentos.
Fig. 2. Modelo tridimensional de la ciudad de nuestra zona de estudio. (a) Ejemplo de un gemelo digital de ciudad con su contraparte de vista de calle del mundo real (Wangan-doro Avenue, Tokio; marzo de 2021; latitud:35.6283, longitud:139.7782). (b) Vista aérea del gemelo digital de la ciudad. Crédito:CC BY, 2022 Jiaxin Zhang et al., Generación automática de conjuntos de datos sintéticos a partir de un gemelo digital de la ciudad para su uso en la segmentación de instancias de fachadas de edificios, Journal of Computational Design and Engineering
Los investigadores descubrieron que los datos de ciudades gemelas digitales conducen a mejores resultados que los datos puramente virtuales sin contrapartida del mundo real. Además, agregar datos sintéticos a un conjunto de datos real mejora la precisión de la segmentación. Sin embargo, lo más importante es que los investigadores encontraron que cuando una cierta fracción de datos reales se incluye en el conjunto de datos sintéticos de la ciudad digital gemela, la precisión de segmentación de la DCNN aumenta significativamente. De hecho, su rendimiento se vuelve competitivo con el de una DCNN entrenada con datos 100% reales.
"Estos resultados revelan que nuestro conjunto de datos sintéticos propuesto podría reemplazar potencialmente todas las imágenes reales en el conjunto de entrenamiento", dice Tomohiro Fukuda, el autor correspondiente del artículo.
Fig. 3. Resultados cualitativos para diferentes tipos y tamaños de edificios cuando Mask R-CNN se entrena utilizando conjuntos de datos HSRBFIA (Hybrid Collection of Synthetic and Real-world Building Facade Images and Annotations) con diferentes proporciones de datos sintéticos a reales:(a) casas de poca altura en Osaka; (b) casas de poca altura en Los Ángeles; (c) casas de gran altura en la ciudad de Nueva York; (d) fachadas complejas en Shanghai. (Los rectángulos rojos discontinuos resaltan partes de las imágenes de Street View que eran propensas a fallar durante la segmentación de instancias de fachada). Crédito:CC BY, 2022 Jiaxin Zhang et al., Generación automática de conjuntos de datos sintéticos a partir de un gemelo digital de la ciudad para su uso en la segmentación de instancias de fachadas de edificios, Journal of Computational Design and Engineering
La separación automática de las fachadas de edificios individuales que aparecen en una imagen es útil para la gestión de la construcción y el diseño de arquitectura, mediciones a gran escala para remodelaciones y análisis de energía, e incluso para visualizar fachadas de edificios que han sido demolidas. El sistema se probó en varias ciudades, lo que demuestra la transferibilidad del marco propuesto. El conjunto de datos híbrido de datos reales y sintéticos produce resultados de predicción prometedores para la mayoría de los estilos arquitectónicos modernos. Esto lo convierte en un enfoque prometedor para capacitar a las DCNN para tareas de segmentación arquitectónica en el futuro, sin la necesidad de una costosa anotación manual de datos.
El estudio se publica en el Journal of Computational Design and Engineering . Un modelo de aprendizaje automático poco supervisado para extraer características de imágenes microscópicas