Red neuronal óptica diseñada aplicada a una tarea de aprendizaje automático convencional. Crédito:Instituto de Ingeniería de UCLA para el Avance Tecnológico
La red neuronal profunda difractiva es un marco de aprendizaje de máquina óptica que utiliza superficies difractivas y materia diseñada para realizar cálculos ópticamente. Después de su diseño y entrenamiento en una computadora utilizando métodos modernos de aprendizaje profundo, cada red está fabricada físicamente, utilizando, por ejemplo, impresión 3D o litografía, para convertir el modelo de red entrenado en materia. Esta estructura tridimensional de materia diseñada está compuesta por superficies transmisivas y / o reflectantes que, en conjunto, realizan tareas de aprendizaje automático a través de la interacción luz-materia y difracción óptica. a la velocidad de la luz, y sin necesidad de ningún poder, excepto por la luz que ilumina el objeto de entrada. Esto es especialmente importante para reconocer objetos de destino mucho más rápido y con mucha menos energía en comparación con los sistemas estándar de aprendizaje automático basados en computadora. y podría proporcionar importantes ventajas para los vehículos autónomos y diversas aplicaciones relacionadas con la defensa, entre otros. Introducido por investigadores de UCLA [1], este marco fue validado experimentalmente para la clasificación de objetos e imágenes, proporcionando un marco de cálculo óptico escalable y energéticamente eficiente. En la siguiente investigación, Los ingenieros de UCLA mejoraron aún más el rendimiento de inferencia de las redes neuronales ópticas difractivas integrándolas con redes neuronales profundas digitales estándar. formando modelos híbridos de aprendizaje automático que realizan cálculos parcialmente usando difracción de luz a través de la materia y parcialmente usando una computadora [2].
En su último trabajo, [3] publicado en Fotónica avanzada , una revista de acceso abierto de SPIE, la sociedad internacional de óptica y fotónica, el grupo de UCLA ha aprovechado al máximo la capacidad inherente de paralelización de la óptica, y mejoró significativamente el rendimiento de inferencia y generalización de las redes neuronales ópticas difractivas (consulte la Figura), ayudando a cerrar la brecha entre las redes neuronales totalmente ópticas y las electrónicas estándar. Una de las mejoras clave incorporó un esquema de detección diferencial, donde la puntuación de cada clase en el plano de salida de la red óptica se calcula utilizando dos detectores diferentes, uno representa números positivos y el otro representa números negativos. La clase de objeto correcta (por ejemplo, coches, aviones, barcos, etc.) se infiere mediante el par de detectores que tiene la mayor diferencia normalizada entre los detectores positivos y negativos. Este esquema de detección diferencial también se combina con redes ópticas difractivas de funcionamiento en paralelo, donde cada uno está especializado para reconocer específicamente un subgrupo de clases de objetos. Este diseño de red difractiva de clase específica se beneficia significativamente del paralelismo y la escalabilidad de los sistemas ópticos, formando trayectorias de luz paralelas dentro de la materia diseñada en 3-D para calcular por separado las puntuaciones de clase de diferentes tipos de objetos.
Estas nuevas estrategias de diseño lograron niveles sin precedentes de precisión de inferencia para el aprendizaje automático basado en redes neuronales totalmente ópticas. Por ejemplo, en una implementación, los investigadores de UCLA demostraron numéricamente una precisión de prueba ciega del 98.59%, 91,06% y 51,44% para el reconocimiento de las imágenes de dígitos escritos a mano, productos de moda, y conjunto de datos de imágenes en escala de grises CIFAR-10 (compuesto por aviones, carros, aves, gatos ciervo, perros, ranas caballos, buques, y camiones), respectivamente [3]. Para comparacion, Estos resultados de inferencia se acercan al rendimiento de algunas de las generaciones anteriores de redes neuronales profundas totalmente electrónicas, por ejemplo, LeNet, que alcanza una precisión de clasificación del 98,77%, 90,27%, y el 55,21% correspondiente a los mismos conjuntos de datos, respectivamente. Diseños de redes neuronales electrónicas más recientes, como ResNet, lograr un rendimiento mucho mejor, todavía dejando una brecha entre el rendimiento de las redes neuronales totalmente ópticas y electrónicas. Esta brecha sin embargo, se equilibra con las importantes ventajas que ofrecen las redes neuronales totalmente ópticas, como la velocidad de inferencia, escalabilidad el paralelismo y el requisito de bajo consumo de energía de las redes ópticas pasivas que utilizan materia de ingeniería para calcular a través de la difracción de la luz.
Esta investigación fue dirigida por el Dr. Aydogan Ozcan, profesor de ingeniería eléctrica e informática del rector en UCLA, y director asociado del California NanoSystems Institute (CNSI). Los otros autores de este trabajo son los estudiantes graduados Jingxi Li, Deniz Mengu y Yi Luo, así como el Dr. Yair Rivenson, profesor adjunto de Ingeniería Eléctrica e Informática en UCLA.
"Nuestros resultados proporcionan un avance importante para ofrecer soluciones de baja potencia y baja latencia basadas en redes neuronales ópticas para diversas aplicaciones de aprendizaje automático, ", dijo el profesor Ozcan. Además, Estos avances sistemáticos en los diseños de redes ópticas difractivas podrían acercarnos un paso más al desarrollo de la próxima generación, sistemas de cámaras computacionales inteligentes y específicos para tareas.
Esta investigación fue apoyada por el Grupo Koç, NSF y HHMI.