• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Generation query network permite a la computadora crear un modelo 3D de múltiples vistas a partir de fotografías 2D

    La interpretación de un artista del papel de S.M. Ali Eslami y col., titulado "Representación y renderizado de escenas neuronales". Crédito:DeepMind

    Un equipo de investigadores que trabaja con la división DeepMind de Google en Londres ha desarrollado lo que describen como Generation Query Network (GQN):permite que una computadora cree un modelo 3-D de una escena a partir de fotografías 2-D que se pueden ver desde diferentes anglos. En su artículo publicado en la revista Ciencias , el equipo describe el nuevo tipo de sistema de red neuronal y lo que representa. También ofrecen una visión más personal de su proyecto en una publicación en su sitio web. Matthias Zwicker, con la Universidad de Maryland ofrece una perspectiva sobre el trabajo realizado por el equipo en el mismo número de la revista.

    En informática, los grandes saltos en la ingeniería de sistemas pueden parecer pequeños debido a la aparente simplicidad de los resultados; no es hasta que alguien aplica los resultados que el gran salto se reconoce verdaderamente. Este fue el caso, por ejemplo, cuando comenzaron a aparecer los primeros sistemas capaces de escuchar lo que una persona dice y extraerle significado. En este nuevo esfuerzo, el equipo de DeepMind podría haber dado un salto similar.

    En aplicaciones informáticas tradicionales, incluidas las redes de aprendizaje profundo, una computadora debe recibir datos con cuchara para que se comporte como si hubiera aprendido algo. Ese no es el caso de GQN, que aprende puramente de la observación, como bebés humanos. El sistema puede observar una escena del mundo real, como bloques sobre una mesa, y luego recrear un modelo capaz de mostrar la escena desde otros ángulos. A primera vista, como señala Zwicker, esto puede no parecer tan innovador. Solo al considerar lo que debe hacer el sistema para llegar a esos nuevos ángulos, se hace evidente el poder real del sistema. Tiene que observar la escena e inferir las características de los objetos ocluidos que no se pueden observar utilizando solo la información bidimensional proporcionada por las cámaras. No hay radar ni buscador de profundidad, o imágenes de cómo se supone que deben verse los bloques almacenados en sus bancos de datos. Todo lo que tiene que trabajar son las pocas fotografías que toma.

    Logrando esto, el equipo explica, implica el uso de dos redes neuronales, uno para analizar la escena, el otro, para utilizar los datos resultantes para crear un modelo tridimensional que pueda verse desde ángulos que no se muestran en las fotografías. Hay mucho más trabajo por hacer, por supuesto, lo más obvio, determinar si se puede ampliar a objetos más complejos, pero en su forma primitiva, representa claramente una nueva forma de permitir que las computadoras aprendan.

    Agente de GQN “imaginando” nuevos puntos de vista en habitaciones con múltiples objetos. Crédito:DeepMind
    Agente de GQN que opera en entornos de laberinto parcialmente observados. Crédito:DeepMind
    Agente de GQN que realiza la tarea de rotación de objetos de Shepard Metzler. Crédito:DeepMind

    © 2018 Tech Xplore




    © Ciencia https://es.scienceaq.com