Crédito:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
En los últimos años, los avances en la inmensa capacidad de procesamiento y el paralelismo de las unidades de procesamiento de gráficos (GPU) modernas han generado el rápido desarrollo del aprendizaje profundo basado en redes neuronales convolucionales (CNN), lo que lleva a soluciones efectivas para una variedad de problemas en aplicaciones de inteligencia artificial. . Sin embargo, las cantidades masivas de datos involucrados en el procesamiento de la visión limitan la aplicación de las CNN a esos equipos portátiles, de bajo consumo y computación eficientes para procesar datos en el sitio.
Se han realizado varios estudios en el campo de la computación óptica para superar los desafíos de las redes neuronales eléctricas. La computación óptica tiene muchas ventajas atractivas, como el paralelismo óptico, que puede mejorar en gran medida la velocidad de computación, y la pasividad óptica puede reducir el costo de energía y minimizar la latencia. Las redes neuronales ópticas (ONN) proporcionan una forma de aumentar la velocidad informática y superar los cuellos de botella de ancho de banda de las unidades eléctricas. Sin embargo, los ONN requieren un láser coherente como fuente de luz para el cálculo y difícilmente se pueden combinar con un sistema de visión artificial maduro en escenas de luz natural. Por lo tanto, se han propuesto redes neuronales híbridas optoelectrónicas, en las que el extremo frontal es óptico y el extremo posterior es eléctrico. Estos sistemas basados en lentes aumentan la dificultad de uso en dispositivos periféricos, como los vehículos autónomos.
En un nuevo artículo publicado en Light:Science &Applications, Un equipo de investigadores, dirigido por el profesor Hongwei Chen del Centro Nacional de Investigación para la Ciencia y la Tecnología de la Información (BNRist) de Beijing, Departamento de Ingeniería Electrónica de la Universidad de Tsinghua, China, ha desarrollado una arquitectura de red neuronal optoelectrónica (LOEN) sin lentes para la visión artificial. tareas que utiliza una máscara pasiva insertada en la trayectoria de la luz de la imagen para realizar operaciones de convolución en el campo óptico y aborda el desafío de procesar señales de luz incoherentes y de banda ancha en escenas naturales. Además, el enlace óptico, el procesamiento de señales de imagen y la red de back-end se combinan sin problemas para lograr una optimización conjunta para tareas específicas a fin de reducir el esfuerzo de cálculo y el consumo de energía en toda la tubería.
Crédito:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
En comparación con la arquitectura de hardware en la visión artificial convencional, se propone una máscara óptica cerca del sensor de imágenes para reemplazar las lentes. De acuerdo con la teoría de la óptica geométrica de que la luz se propaga en línea recta, las escenas pueden considerarse como conjuntos de fuentes de luz puntuales, y la señal óptica es modulada espacialmente por la máscara para realizar la operación de convolución de cambio y superposición en el sensor de imagen. Se ha verificado que las máscaras ópticas pueden reemplazar las capas convolucionales de las redes neuronales para la extracción de características en el dominio óptico.
Para tareas de clasificación de objetos, como el reconocimiento de dígitos escritos a mano, se construye una red liviana para el reconocimiento en tiempo real para verificar el rendimiento de la convolución óptica en la arquitectura. Mientras se utiliza un único núcleo de convolución, la precisión de reconocimiento puede alcanzar el 93,47 %. Cuando se implementa la operación de convolución multicanal mediante la disposición de varios núcleos en paralelo en la máscara, la precisión de la clasificación se puede mejorar hasta el 97,21 %. En comparación con los enlaces de visión artificial tradicionales, puede ahorrar alrededor del 50 % del consumo de energía.
Crédito:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Además, al expandir la dimensión de la máscara óptica, la imagen se convoluciona en el dominio óptico y el sensor captura una imagen con alias que es irreconocible para el ojo humano, que naturalmente puede cifrar información privada sin consumo computacional. El rendimiento del cifrado óptico se verificó en la tarea de reconocimiento facial. En comparación con el patrón MLS aleatorio, la precisión de reconocimiento de la máscara optimizada conjuntamente por una red de extremo a extremo mejoró en más del 6 %. Al mismo tiempo que el cifrado de protección de la privacidad, básicamente logró el mismo rendimiento de precisión de reconocimiento que los métodos sin cifrado.
Este trabajo propone un sistema extremadamente simplificado para tareas de visión artificial, que no solo realiza el cálculo de la red neuronal optoelectrónica en escenas naturales, sino que también abre todo el enlace optoelectrónico para completar la optimización conjunta para lograr los mejores resultados para una tarea de visión específica. En combinación con los materiales no lineales, se logrará la red neuronal de luz natural. La nueva arquitectura tendrá numerosas aplicaciones potenciales en muchos escenarios reales, como la conducción autónoma, los hogares inteligentes y la seguridad inteligente. Computación totalmente óptica basada en redes neuronales convolucionales