Franziska Müller, Instituto Max Planck de Informática, ha desarrollado un sistema de software que solo requiere la cámara incorporada de una computadora portátil para producir un modelo 3D en tiempo real de una mano en movimiento. Crédito:Oliver Dietze
La captura de los movimientos de las manos y los dedos en milisegundos es cada vez más importante para muchas aplicaciones, desde la realidad virtual hasta la interacción hombre-máquina y la Industria 4.0. Hasta aquí, sus enormes exigencias técnicas tienen aplicaciones posibles limitadas. Los informáticos del Instituto Max Planck de Informática han desarrollado un sistema de software que involucra la interacción de varias redes neuronales que solo requiere la cámara incorporada de una computadora portátil.
Por primera vez, los investigadores presentarán el programa en el stand G75 del pabellón 27 de la feria informática Cebit, que tendrá lugar en Hannover a partir del 11 de junio.
Cuando la científica informática Franziska Müller sostiene su mano frente a la cámara del portátil, la contraparte virtual de la mano aparece en la pantalla. Esto está superpuesto por un colorido esqueleto de mano virtual. No importa qué movimientos haga la mano de Müller frente a la cámara web, los huesos de colores del modelo hacen lo mismo. Müller muestra el software que desarrolló junto con el profesor Christian Theobalt y otros investigadores del Instituto Max Planck de Ciencias de la Computación en Saarbrücken, Universidad de Stanford y la Universidad Española Rey Juan Carlos. Hasta aquí, ningún otro software puede hacer esto con una cámara tan económica.
Dado que funciona en casi todos los tipos de escenas filmadas, se puede usar en cualquier lugar, y por lo tanto supera los enfoques anteriores que requieren una cámara de profundidad o varias cámaras. El algoritmo que utiliza el sistema transforma la información bidimensional de la imagen de vídeo en tiempo real en el modelo de movimiento tridimensional de los huesos de la mano. Se basa en la llamada "red neuronal convolucional, "o CNN para abreviar. Los investigadores lo entrenaron para detectar los huesos de la mano. Han generado los datos de entrenamiento necesarios con otra red neuronal. El resultado:el software calcula las poses exactas en 3D de los huesos de la mano en milisegundos. Incluso si algunos de ellos están ocluidos, por ejemplo, por una manzana en la mano del usuario, el software lo compensa. Sin embargo, el sistema todavía tiene problemas para procesar varias manos trabajando juntas, y resolver esto es el próximo objetivo de los investigadores.