Los investigadores de UCLA crearon un sistema de visión artificial de un solo píxel que puede codificar la información espacial de los objetos en el espectro de luz para clasificar ópticamente los objetos de entrada y reconstruir sus imágenes utilizando un detector de un solo píxel. Crédito:Ozcan Lab @ UCLA.
Los sistemas de visión artificial tienen muchas aplicaciones, incluidos los coches autónomos, fabricación inteligente, cirugía robótica e imágenes biomédicas, Entre muchos otros. La mayoría de estos sistemas de visión artificial utilizan cámaras basadas en lentes, y después de capturar una imagen o un video, normalmente con unos pocos megapíxeles por fotograma, se utiliza un procesador digital para realizar tareas de aprendizaje automático, como la clasificación de objetos y la segmentación de escenas. Una arquitectura de visión artificial de este tipo adolece de varios inconvenientes. Primero, la gran cantidad de información digital dificulta el análisis de imágenes / videos a alta velocidad, especialmente utilizando dispositivos móviles y que funcionan con baterías. Además, las imágenes capturadas suelen contener información redundante, que abruma al procesador digital con una alta carga computacional, creando ineficiencias en términos de requisitos de energía y memoria. Es más, más allá de las longitudes de onda visibles de la luz, Fabricación de sensores de imagen con una gran cantidad de píxeles. como lo que tenemos en las cámaras de nuestros teléfonos móviles, es desafiante y costoso, que limita las aplicaciones de los métodos de visión artificial estándar en longitudes de onda más largas, como terahercios parte del espectro.
Los investigadores de UCLA han informado de un nuevo, Marco de visión artificial de un solo píxel que proporciona una solución para mitigar las deficiencias e ineficiencias de los sistemas de visión artificial tradicionales. Aprovecharon el aprendizaje profundo para diseñar redes ópticas creadas por superficies difractivas sucesivas para realizar cálculos e inferencias estadísticas a medida que la luz de entrada pasa a través de estas capas especialmente diseñadas y fabricadas en 3D. A diferencia de las cámaras normales con lentes, Estas redes ópticas difractivas están diseñadas para procesar la luz entrante en longitudes de onda seleccionadas con el objetivo de extraer y codificar las características espaciales de un objeto de entrada en el espectro de la luz difractada. que es recolectado por un detector de un solo píxel. Se asignan diferentes tipos de objetos o clases de datos a diferentes longitudes de onda de luz. Los objetos de entrada se clasifican automáticamente de forma óptica, simplemente usando el espectro de salida detectado por un solo píxel, evitando la necesidad de una matriz de sensores de imagen o un procesador digital. Esta inferencia totalmente óptica y la capacidad de visión artificial a través de un detector de un solo píxel que está acoplado a una red difractiva proporciona ventajas transformadoras en términos de velocidad de fotogramas. requisito de memoria y eficiencia energética, que son especialmente importantes para las aplicaciones informáticas móviles.
En un estudio publicado en Avances de la ciencia , Los investigadores de UCLA demostraron experimentalmente el éxito de su marco en longitudes de onda de terahercios al clasificar las imágenes de dígitos escritos a mano utilizando un detector de un solo píxel y capas difractivas impresas en 3D. La clasificación óptica de los objetos de entrada (dígitos escritos a mano) se realizó en base a la señal máxima entre las diez longitudes de onda que eran, uno a uno, asignado a diferentes dígitos escritos a mano (0 a 9). A pesar de utilizar un detector de un solo píxel, se logró una precisión de clasificación óptica de más del 96%. Un estudio experimental de prueba de concepto con capas difractivas impresas en 3D mostró una estrecha concordancia con las simulaciones numéricas, demostrando la eficacia del marco de visión artificial de un solo píxel para crear sistemas de aprendizaje automático de baja latencia y eficientes en el uso de recursos. Además de la clasificación de objetos, Los investigadores también conectaron la misma red óptica difractiva de un solo píxel con un simple, red neuronal electrónica poco profunda, reconstruir rápidamente las imágenes de los objetos de entrada basándose únicamente en la potencia detectada en diez longitudes de onda distintas, demostración de la descompresión de imágenes de una tarea específica.
Este marco de reconstrucción de imágenes y clasificación de objetos de un solo píxel podría allanar el camino para el desarrollo de nuevos sistemas de visión artificial que utilicen la codificación espectral de la información del objeto para lograr una tarea de inferencia específica de una manera eficiente en el uso de recursos. con baja latencia, baja potencia y bajo número de píxeles. Este nuevo marco también se puede extender a varios sistemas de medición de dominio espectral, como la tomografía de coherencia óptica, Espectroscopía infrarroja y otros, para crear modalidades de detección e imágenes en 3D fundamentalmente nuevas integradas con codificación de información espacial y espectral basada en redes difractivas.