Crédito:CC0 Public Domain
Los investigadores de la Universidad Estatal de Carolina del Norte han desarrollado un nuevo marco para construir redes neuronales profundas a través de generadores de redes guiados por gramática. En pruebas experimentales, las nuevas redes, llamadas AOGNets, han superado los marcos de trabajo de vanguardia existentes, incluidos los sistemas ResNet y DenseNet ampliamente utilizados, en tareas de reconocimiento visual.
"Las AOGNets tienen una mejor precisión de predicción que cualquiera de las redes con las que las hemos comparado, "dice Tianfu Wu, profesor asistente de ingeniería eléctrica e informática en NC State y autor correspondiente de un artículo sobre el trabajo. "Las AOGNets también son más interpretables, lo que significa que los usuarios pueden ver cómo el sistema llega a sus conclusiones ".
El nuevo marco utiliza un enfoque de gramática de composición para la arquitectura del sistema que se basa en las mejores prácticas de los sistemas de red anteriores para extraer de manera más efectiva información útil de los datos sin procesar.
"Descubrimos que la gramática jerárquica y compositiva nos proporcionaba una manera elegante de unificar los enfoques adoptados por arquitecturas de sistemas anteriores, y a nuestro mejor saber y entender, es el primer trabajo que hace uso de la gramática para la generación de redes, "Dice Wu.
Para probar su nuevo marco, los investigadores desarrollaron AOGNets y las probaron con tres puntos de referencia de clasificación de imágenes:CIFAR-10, CIFAR-100 e ImageNet-1K.
"AOGNets obtuvo un rendimiento significativamente mejor que todas las redes de vanguardia en comparaciones justas, incluyendo ResNets, DenseNets, ResNeXts y DualPathNets, "Dice Wu." AOGNets también obtuvo la mejor puntuación de interpretabilidad del modelo utilizando la métrica de disección de red en ImageNet. Las AOGNets muestran además un gran potencial en la defensa contra adversarios y la implementación independiente de la plataforma (móvil frente a la nube) ".
Los investigadores también probaron el rendimiento de AOGNets en la detección de objetos y la segmentación semántica de instancias, en el benchmark Microsoft COCO, utilizando el sistema Vanilla Mask R-CNN.
"AOGNets obtuvo mejores resultados que las redes troncales ResNet y ResNeXt con tamaños de modelo más pequeños y tiempo de inferencia similar o ligeramente mejor, "Dice Wu." Los resultados muestran la efectividad de AOGNets aprendiendo mejores características en la detección de objetos y tareas de segmentación.
Estas pruebas son relevantes porque la clasificación de imágenes es una de las tareas básicas centrales en el reconocimiento visual, e ImageNet es el punto de referencia de clasificación estándar a gran escala. Similar, la detección y segmentación de objetos son dos tareas de visión de alto nivel fundamentales, y MS-COCO es uno de los puntos de referencia más utilizados.
"Para evaluar nuevas arquitecturas de red para el aprendizaje profundo en el reconocimiento visual, son los bancos de pruebas de oro, "Dice Wu." Las AOGNets se desarrollan bajo un marco gramatical de principios y obtienen una mejora significativa tanto en ImageNet como en MS-COCO, mostrando así impactos potencialmente amplios y profundos para el aprendizaje de la representación en numerosas aplicaciones prácticas.
"Estamos entusiasmados con el marco AOGNet guiado por gramática, y están explorando su rendimiento en otras aplicaciones de aprendizaje profundo, como la comprensión profunda del lenguaje natural, aprendizaje generativo profundo y aprendizaje por refuerzo profundo, "Dice Wu.
El papel, "AOGNets:arquitecturas gramaticales composicionales para el aprendizaje profundo, "se presentará en la IEEE Computer Vision and Pattern Recognition Conference, que se llevará a cabo del 16 al 20 de junio en Long Beach, Calif. El primer autor del artículo es Xilai Li, un doctorado estudiante en NC State. El artículo fue coautor de Xi Song, un investigador independiente.