El enfoque de creación de caras de NVIDIA es genuinamente GAN-tástico

Conjunto de imágenes sin curar producidas por el generador basado en estilos (config F) con el conjunto de datos FFHQ. Crédito:arXiv:1812.04948 [cs.NE]

Un nuevo tipo de enfoque de Red Adversarial Generativa tiene a los observadores de la tecnología rascándose la cabeza:¿Cómo pueden las imágenes ser falsas y, sin embargo, parecer tan reales?

"Se nos ocurrió un nuevo generador que aprende automáticamente a separar diferentes aspectos de las imágenes sin supervisión humana, ", dijeron los investigadores en un video. Afirmaron en su artículo, "La nueva arquitectura conduce a un aprendizaje automático, separación no supervisada de atributos de alto nivel ".

Hacer que las imágenes falsas parezcan reales es un esfuerzo artístico que no es nada nuevo, pero estos tres investigadores elevaron el esfuerzo al siguiente nivel.

Explicaron su técnica en su artículo, "Una arquitectura generadora basada en estilos para redes generativas de confrontación". El documento está en arXiv y ha atraído mucha atención.

Stephen Johnson en Gran pensamiento dijo que los resultados fueron "bastante sorprendentes". Will Knight en Revisión de tecnología del MIT dijo que lo que estamos viendo constituye "impresionante, realismo casi espeluznante ".

Los investigadores, Tero Karras, Samuli Laine, y Timo Aila, son de Nvidia. Su enfoque se centra en la construcción de una red de confrontación generativa, Organo, donde tiene lugar el aprendizaje para generar imágenes completamente nuevas que imitar la aparición de fotos reales.

Los autores dijeron que todas las imágenes de este video fueron producidas por su generador. "No son fotografías de personas reales".

Su papel "dijo Knight, mostró cómo se puede utilizar el enfoque para jugar, y remezclar elementos como la raza, género, o incluso pecas.

La salsa mágica es su generador de estilo. Gran pensamiento explicó esto como una versión modificada de la tecnología convencional que se utiliza para generar imágenes automáticamente.

Su tecnología está jugando con tu cabeza y teniendo la última risa (o palabra, como lo mires).

Tú, como ser humano, piensas en "imágenes". El generador, sin embargo, piensa en "colección de estilo".

Visualizar el efecto de los estilos en el generador haciendo que los estilos producidos por un código latente (fuente) anulen un subconjunto de los estilos de otro (destino). Crédito:arXiv:1812.04948 [cs.NE]

Cada estilo controla los efectos a una escala particular. Hay estilos toscos, estilos medios, estilos finos. (Los estilos toscos se refieren a pose, cabello, forma de la cara; los estilos medios se refieren a rasgos faciales; ojos. Los estilos finos se refieren a la combinación de colores).

Will Knight, mientras tanto, hizo algunas observaciones sobre las GAN:"Las GAN emplean dos redes neuronales en duelo para entrenar a una computadora para que aprenda la naturaleza de un conjunto de datos lo suficientemente bien como para generar falsificaciones convincentes. Cuando se aplican a imágenes, esto proporciona una forma de generar falsificaciones a menudo muy realistas ".

Johnson proporcionó un trasfondo del concepto GAN:

"En 2014, un investigador llamado Ian Goodfellow y sus colegas escribieron un artículo que describe un nuevo concepto de aprendizaje automático llamado redes generativas de confrontación. La idea, en términos simplificados, implica enfrentar dos redes neuronales entre sí. Uno actúa como un generador que mira, decir, imágenes de perros y luego hace todo lo posible para crear una imagen de cómo cree que se ve un perro. La otra red actúa como un discriminador que intenta diferenciar las imágenes falsas de las reales.

"En primer lugar, el generador puede producir algunas imágenes que no parecen perros, por lo que el discriminador los derriba. Pero el generador ahora sabe un poco dónde salió mal, por lo que la siguiente imagen que crea es un poco mejor. Este proceso continúa hasta que, En teoria, el generador crea una buena imagen de un perro ".

El equipo de Nvidia agregó principios de transferencia de estilo a la combinación de GAN.

Devin Coldewey en TechCrunch :"Carros, gatos paisajes:todo esto encaja más o menos en el mismo paradigma de lo pequeño, características medianas y grandes que pueden aislarse y reproducirse individualmente ".

Desde un punto de vista técnico, su trabajo ha sido elogiado por los impresionantes resultados en imágenes de personas que parecen reales. Desde un punto de vista popular, agudizado por hablar de noticias falsas, el avance se considera peligroso. "La capacidad de generar imágenes artificiales realistas, a menudo llamados deepfakes cuando las imágenes están destinadas a parecerse a personas reconocibles, ha suscitado preocupación en los últimos años, "dijo Johnson.

Las páginas del sitio de observación de tecnología se llenaron de comentarios sobre lo "espeluznante" que era esto, y algunos comentarios fueron simplemente preguntas:"¿Por qué estamos haciendo esto?" "¿Quién lo paga?" "Si no creamos límites regulatorios, Creo que la próxima gran batalla de la historia humana se librará (y posiblemente se perderá) contra la IA que creamos, "dijo una respuesta.

Sin embargo, no todos los comentarios reflejan malestar. Este es un avance tecnológico y algunos comentarios señalaron que las aplicaciones podrían ser útiles en ciertos sectores. Diseñadores creadores de agencias de publicidad, e incluso los creadores de videojuegos podrían utilizar esta tecnología para dar un paso adelante.

"Estos rostros generados por IA prometen marcar el comienzo de una nueva generación de personas fotorrealistas en videojuegos y películas sin la necesidad de actores humanos o extras, " dijo HotHardware .

Más económico, tecnología solar más eficiente un paso más cerca

Noruega ve un auge en los coches eléctricos, impulsado por el gobierno

Electrónica