Ayudar a las computadoras a ver estructuras tridimensionales

Crédito:CC0 Public Domain

Si puede reconocer estructuras a su alrededor mientras camina por una calle de la ciudad, tienes tus ojos para agradecer. Los humanos pueden percibir automáticamente la estructura 3-D en el mundo identificando líneas, formas simetrías y los patrones y relaciones entre ellos en cosas como edificios, aceras y objetos cotidianos. Pero, ¿se puede enseñar a una computadora a hacer lo mismo?

Zihan Zhou, profesor asistente de ciencias de la información y tecnología en Penn State, se propone explorar esa cuestión gracias a una subvención reciente de la National Science Foundation.

"Queremos que una computadora vea el espacio tridimensional como lo hacen los humanos, ", dijo Zhou." Este premio y proyecto en particular trata sobre la percepción de la estructura, que se ha ignorado en gran medida en la visión 3-D. Esto es algo que no se ha hecho antes ".

La percepción de la estructura es la capacidad de los ojos de un ser humano para organizar datos o patrones y agruparlos de determinadas formas. Por ejemplo, un humano puede mirar un dibujo lineal de un edificio y visualizar puertas, ventanas y paredes.

"Hay muchos tipos de estas relaciones en el mundo real, y los humanos hacen uso de esas relaciones para sentir el espacio tridimensional, ", dijo." Los ojos humanos pueden percibir fácilmente este tipo de cosas. La pregunta ahora es:¿Puede la computadora tener la capacidad de sentir estas cosas como lo hace un ser humano? "

Para responder a esa pregunta, Zhou planea desarrollar un nuevo marco basado en datos para el descubrimiento de estructuras, aprovechando la disponibilidad de datos visuales masivos y los avances recientes en técnicas de aprendizaje automático.

Estas técnicas podrían luego aplicarse a un amplio espectro de problemas de visión por computadora del mundo real, incluido el modelado tridimensional de entornos urbanos, realidad virtual y aumentada, y conducción autónoma. La investigación también podría afectar las ciencias cognitivas, sugiriendo nuevos mecanismos computacionales para la comprensión de imágenes; e interacción humano-robot, al permitir que los robots razonen en términos de forma geométrica, física y dinámica.

"Si un robot reconoce algo como un tipo específico de estructura, entonces sabe cómo interactuar con él, "dijo Zhou." Por ejemplo, si un robot es capaz de reconocer una estructura con una parte superior plana, sabría que podría poner un objeto como una taza sobre él ".

Adicionalmente, el marco puede afectar el trabajo de los arquitectos, diseñadores e ingenieros.

"Si piensas en esos arquitectos, trabajan con modelos 3D todos los días, "dijo Zhou." Si construyen algo, primero crean dibujos lineales. Entonces, si una computadora puede entender puertas y ventanas en los dibujos, sería muy útil para el diseño arquitectónico y la ingeniería ".

Zhou desarrolló un interés en este tema mientras era pasante de posgrado en Adobe. En su pasantía, estudió la relación entre el movimiento de la cámara y el medio ambiente, lo que podría ayudar a la industria del cine a analizar escenas.

"Traté de extraer algunos tipos de estructuras de los videos y la secuencia de la cámara, ", dijo." En ese momento fue para analizar la trayectoria de la cámara para la industria del cine, pero luego nos dimos cuenta de que era más sistemático ".

Ahora, en Penn State, Zhou espera aprovechar la red interdisciplinaria para avanzar en su trabajo.

"IST tiene personas que trabajan en diversas áreas, y muchos de ellos pueden verse afectados por este tipo de trabajo, ", dijo." Esto ha generado mucho interés en diferentes áreas. Estamos buscando extender esto más allá y encontrar aplicaciones para hacer esto más colaborativo ".

"Aproximadamente el 70 por ciento de la información que obtenemos proviene de señales visuales de nuestros ojos, ", concluyó." Obviamente, tenemos áreas como el procesamiento del lenguaje natural para ayudar a comprender el habla y los sonidos, pero la visión humana es el factor dominante en cómo entendemos este mundo. Hacer que la computadora vea el mundo como nosotros es una de las áreas más emocionantes de la inteligencia artificial y la informática ".

Amazon quiere llevar a Alexa a tu auto

Una experiencia multipantalla de carreras de motos

Electrónica