FIGURA 1:Un sistema de visión estéreo totalmente basado en eventos compuesto por un par de sensores de visión dinámica (izquierda) que envía su salida a un grupo de procesadores TrueNorth (derecha). Crédito:IBM
El grupo de Computación inspirada en el cerebro de IBM Research-Almaden presentará en la Conferencia IEEE de 2018 sobre visión por computadora y reconocimiento de patrones (CVPR 2018) nuestro artículo más reciente titulado "A Low Power, Alto rendimiento, Sistema estéreo totalmente basado en eventos ". El documento describe un sistema de visión estéreo de extremo a extremo que utiliza exclusivamente computación de red neuronal con picos y puede ejecutarse en hardware neuromórfico con una entrada de picos de transmisión en vivo. Inspirado en el sistema de visión humana, utiliza un grupo de chips IBM TrueNorth y un par de sensores de retina digitales (también conocidos como sensores de visión dinámica, DVS) para extraer la profundidad de los objetos que se mueven rápidamente en una escena. Nuestro sistema captura escenas en 3-D con baja potencia, baja latencia y alto rendimiento, que tiene el potencial de avanzar en el diseño de sistemas inteligentes.
¿Qué es la visión estéreo?
La visión estéreo es la percepción de profundidad y estructura tridimensional. Cuando miras un objeto, por ejemplo, sus ojos producen dos imágenes dispares porque sus posiciones son ligeramente diferentes. Las disparidades entre las dos imágenes se procesan en el cerebro para generar información sobre la ubicación y la distancia del objeto. Nuestro sistema replica esta capacidad para las computadoras. Se comparan las posiciones relativas de un objeto en las imágenes de los dos sensores, y la ubicación del objeto en el espacio 3-D se calcula mediante la triangulación de esos datos.
Los sistemas de visión estéreo se utilizan en sistemas inteligentes para la automatización industrial (completando tareas como la recolección de contenedores, Localización de objetos 3-D, medición de volumen y piezas de automoción), conducción autónoma, navegación robótica móvil, vigilancia, realidad aumentada, y otros fines.
Tecnología neuromórfica
Nuestro sistema de visión estéreo es único porque se implementa completamente en hardware digital basado en eventos (procesadores neurosinápticos TrueNorth), utilizando un modelo de cálculo no von-Neumann totalmente basado en gráficos, sin marcos, matrices, o cualquier otra estructura de datos común. Esta es la primera vez que una canalización estéreo en tiempo real de extremo a extremo se implementa completamente en hardware basado en eventos conectado a un sensor de visión. Nuestro trabajo demuestra cómo un conjunto diverso de subrutinas comunes necesarias para la visión estéreo (rectificación, correspondencia estéreo espacio-temporal multiescala, El ganador lo toma todo, y regularización de disparidad) se pueden implementar de manera eficiente en una red neuronal de picos. Esta arquitectura usa mucha menos energía que los sistemas convencionales, lo que podría beneficiar el diseño de sistemas móviles autónomos.
Es más, en lugar de cámaras de video convencionales, que capturan una escena como una serie de fotogramas, usamos un par de cámaras DVS, que responden solo a los cambios en la escena. Esto da como resultado menos datos, menor consumo de energía, alta velocidad, baja latencia, y buen rango dinámico, todos los cuales también son clave para el diseño de sistemas en tiempo real.
Tanto los procesadores como los sensores imitan la actividad neuronal humana al representar datos como eventos asincrónicos, al igual que los picos de neuronas en el cerebro. Nuestro sistema se basa en el influyente trabajo inicial de Misha Mahowald en el diseño de sistemas neuromórficos. El grupo Brain-Inspired Computing diseñó previamente un sistema de reconocimiento de gestos basado en eventos utilizando una tecnología similar.
Nuestro sistema estéreo de extremo a extremo conecta un par de cámaras de eventos DVS (modelos iniLabs DAVIS240C) a través de USB a una computadora portátil, que distribuye el cálculo a través de Ethernet a un grupo de nueve procesadores TrueNorth. Cada procesador TrueNorth es responsable de los cálculos de disparidad estéreo en un subconjunto de la entrada. En otras palabras, este es un enfoque de escalamiento horizontal para el cálculo de estéreo, ya que el sistema habilita, en principio, la adición de muchos más procesadores TrueNorth para procesar entradas más grandes.
FIGURA 2:Salida de una cámara convencional basada en marcos (izquierda) versus sensores de visión dinámica (derecha) para un ventilador giratorio. Los sensores de visión dinámica producen bordes más nítidos para objetos que se mueven rápidamente. Crédito:IBM Blog Research
Las cámaras DAVIS proporcionan dos conectores de audio de 3,5 mm, permitiendo sincronizar los eventos producidos por los dos sensores. Esto es fundamental para el diseño del sistema. Las salidas de disparidad de los chips TrueNorth se envían de vuelta a la computadora portátil, que convierte los valores de disparidad en coordenadas 3D reales. Un visualizador basado en openGL que se ejecuta en la computadora portátil permite al usuario visualizar la escena reconstruida desde cualquier punto de vista. Se muestra que la versión de transmisión en vivo del sistema que se ejecuta en nueve chips TrueNorth calcula 400 mapas de disparidad por segundo con una latencia de hasta 11 ms y una mejora de ~ 200X en términos de potencia por píxel por mapa de disparidad en comparación con el estado de disparidad más cercano. -el arte. Es más, la capacidad de aumentar esto hasta 2, 000 disparidades por segundo (sujeto a ciertas compensaciones) se discuten en el documento.
FIGURA 3:Reconstrucción de profundidad para un ventilador giratorio desde la vista de la cámara (arriba) y desde una vista oblicua (abajo). Crédito:IBM