• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • La investigación perspicaz ilumina lo nuevo posible en el ámbito de las imágenes naturales y sintéticas.

    Crédito:Microsoft

    Un par de artículos innovadores en visión por computadora abren nuevas perspectivas sobre las posibilidades en el ámbito de la creación de imágenes naturales de aspecto muy real y la síntesis de imágenes realistas. imágenes faciales que preservan la identidad. En CVAE-GAN:generación de imágenes de grano fino a través del entrenamiento asimétrico, presentado el pasado mes de octubre en ICCV 2017 en Venecia, El equipo de investigadores de Microsoft y la Universidad de Ciencia y Tecnología de China ideó un modelo para la generación de imágenes basado en una red de adversarios generativos de autocodificador variacional capaz de sintetizar imágenes naturales en lo que se conoce como categorías de grano fino. Las categorías detalladas incluirían rostros de individuos específicos, decir de las celebridades, u objetos del mundo real como tipos específicos de flores o pájaros.

    Los investigadores - Dong Chen, Fang Wen y Gang Hua de Microsoft, Jianmin Bao, pasante en Microsoft Research, junto con Houqiang Li, de la Universidad de Ciencia y Tecnología de China, al estudiar cómo construir mejor modelos generativos efectivos de imágenes naturales, estaban lidiando con un problema clave en la visión por computadora:cómo generar imágenes muy diversas y realistas variando un número finito de imágenes. parámetros latentes relacionados con la distribución natural de cualquier imagen en el mundo. El desafío consistía en crear un modelo generativo para capturar esos datos. Optaron por un enfoque que utilizaba redes generativas de confrontación combinadas con un codificador automático variacional para crear su marco de aprendizaje. El enfoque modela cualquier imagen como una composición de etiquetas y atributos latentes en un modelo probabilístico. Al variar la etiqueta de categoría detallada (por ejemplo, "oropéndola" o "estornino" para tipos específicos de aves, o los nombres de celebridades específicas) que se incorporarían al modelo generativo, el equipo pudo sintetizar imágenes en categorías específicas utilizando valores extraídos al azar con respecto a los atributos latentes. Es solo recientemente que este tipo de aprendizaje profundo hace posible el modelado de la distribución de imágenes de objetos específicos en el mundo, permitiéndonos dibujar a partir de ese modelo para sintetizar básicamente la imagen, explicó Gang Hua, investigador principal de Microsoft Research en Redmond, Washington.

    "Nuestro enfoque tiene dos aspectos novedosos, "dijo Hua." Primero, Adoptamos una pérdida de entropía cruzada para la red discriminativa y clasificadora, pero optamos por un objetivo de discrepancia media para la red generativa ". La función de pérdida asimétrica resultante y su efecto en los aspectos de aprendizaje automático del marco fueron alentadores". La pérdida asimétrica en realidad hace el entrenamiento de las GAN más estable, ", dijo Hua." Diseñamos una pérdida asimétrica para abordar el problema de la inestabilidad en el entrenamiento de los GAN básicos que aborda específicamente las dificultades numéricas al hacer coincidir dos distribuciones que no se superponen ".

    La otra innovación fue la adopción de una red codificadora que pudiera aprender la relación entre el espacio latente y utilizar la coincidencia de características por pares para retener la estructura de las imágenes sintetizadas.

    Experimentar con imágenes naturales:fotografías genuinas de cosas reales que se encuentran en la naturaleza, como rostros, flores y pájaros, los investigadores pudieron demostrar que sus modelos de aprendizaje automático podían sintetizar imágenes reconocibles con una variedad impresionante dentro de categorías muy específicas. Las aplicaciones potenciales cubren todo, desde imágenes en pintura, al aumento de datos y mejores modelos de reconocimiento facial.

    "Nuestra tecnología abordó un desafío fundamental en la generación de imágenes, el de la controlabilidad de los factores de identidad. Esto nos permite generar imágenes como queremos que se vean. dijo Hua ".

    Sintetizando caras

    ¿Cómo se lleva el poder de sintetizar imágenes realistas de flores o pájaros un paso más allá? Miras rostros humanos. Rostros humanos cuando se toma en el contexto de la identidad, se encuentran entre las imágenes más sofisticadas que se pueden capturar en la naturaleza. En Hacia la Síntesis de Rostros de Conservación de Identidad de Conjunto Abierto, presentado este mes en CVPR 2018 en Salt Lake City, los investigadores desarrollaron un marco basado en GAN que puede desenredar la identidad y los atributos de los rostros, con atributos que incluyen propiedades intrínsecas como la forma de la nariz y la boca o incluso la edad, así como factores ambientales, como la iluminación o si se aplicó maquillaje en la cara. Si bien los procesos anteriores de síntesis de rostros para preservar la identidad se limitaban en gran medida a sintetizar rostros con identidades conocidas que ya estaban contenidas en el conjunto de datos de entrenamiento, Los investigadores desarrollaron un método para lograr la síntesis de rostros que preserva la identidad en dominios abiertos, es decir, para un rostro que queda fuera de cualquier conjunto de datos de entrenamiento. Para hacer esto, aterrizaron en un método único de usar imágenes de una entrada de un sujeto que produciría un vector de identidad y lo combinaron con cualquier otra imagen de la cara de entrada (no de la misma persona) para extraer un vector de atributo, como pose, emoción o iluminación. El vector de identidad y el vector de atributo se recombinan luego para sintetizar una nueva cara para el sujeto que presenta el atributo extraído. Notablemente, el marco no tiene que anotar y categorizar los atributos de ninguna de las caras de ninguna manera. Está entrenado con una función de pérdida asimétrica para preservar mejor la identidad y estabilizar los aspectos del aprendizaje automático. Impresionantemente También puede aprovechar de manera efectiva cantidades masivas de imágenes de caras de entrenamiento sin etiquetar (piense en imágenes faciales aleatorias) para mejorar aún más la fidelidad o precisión de las caras sintetizadas.

    Una aplicación obvia para el consumidor es el ejemplo clásico del desafío del fotógrafo de tomar una foto grupal que incluye docenas de sujetos; el objetivo común es el esquivo plano ideal en el que todos los sujetos son captados con los ojos abiertos e incluso sonriendo. "Con nuestra tecnología, ¡Lo mejor es que pude literalmente representar una cara sonriente para cada uno de los participantes en la toma! ", exclama Hua. Lo que hace que esto sea completamente diferente de la mera edición de imágenes, dice Hua, es que se conserva la identidad real del rostro. En otras palabras, aunque se sintetiza la imagen de un participante sonriente, un "momento" que de hecho no ocurrió en la realidad, el rostro es inequívocamente el del individuo; su identidad se ha conservado en el proceso de alteración de la imagen.

    Hua ve muchas aplicaciones útiles que beneficiarán a la sociedad y ve mejoras constantes en el reconocimiento de imágenes. comprensión de video e incluso las artes.


    © Ciencia https://es.scienceaq.com