• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • WaveGlow:una red generativa basada en flujo para sintetizar el habla

    Red WaveGlow. Crédito:Prenger, Valle, y Catanzaro.

    Un equipo de investigadores de NVIDIA ha desarrollado recientemente WaveGlow, una red basada en flujo que puede generar voz de alta calidad a partir de melspectrogramas, que son representaciones acústicas de tiempo-frecuencia de sonido. Su método, descrito en un artículo publicado previamente en arXiv, utiliza una sola red capacitada con una sola función de costos, haciendo que el procedimiento de entrenamiento sea más fácil y estable.

    "La mayoría de las redes neuronales para sintetizar el habla eran demasiado lentas para nosotros, "Ryan Prenger, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Tenían una velocidad limitada porque estaban diseñados para generar solo una muestra a la vez. Las excepciones fueron los enfoques de Google y Baidu que generaban audio muy rápidamente en paralelo. Sin embargo, estos enfoques utilizaban redes de profesores y redes de estudiantes y eran demasiado complejos para reproducirlos ".

    Los investigadores se inspiraron en Glow, una red basada en flujo de OpenAI que puede generar imágenes de alta calidad en paralelo, conservando una estructura bastante simple. Usando una convolución invertible 1x1, Glow logró resultados notables, produciendo imágenes de gran realismo. Los investigadores decidieron aplicar la misma idea detrás de este método a la síntesis de voz.

    "Piense en el ruido blanco que proviene de una radio que no está conectada a ninguna estación, "Explicó Prenger. Ese ruido blanco es muy fácil de generar. La idea básica de sintetizar la voz con WaveGlow es entrenar una red neuronal para transformar ese ruido blanco en voz. Si usa cualquier red neuronal antigua, la formación será problemática. Pero si usa específicamente una red que se puede ejecutar tanto hacia atrás como hacia adelante, las matemáticas se vuelven fáciles y algunos de los problemas de capacitación desaparecen ".

    Los investigadores ejecutaron clips de voz del conjunto de datos de entrenamiento al revés, entrenando WaveGlow para producir lo que se asemeja mucho al ruido blanco. Su modelo aplica la misma idea detrás de Glow a una arquitectura similar a WaveNet, de ahí el nombre WaveGlow.

    En una implementación de PyTorch, WaveGlow produjo muestras de audio a una velocidad de más de 500 kHz, en una GPU NVIDIA V100. Las pruebas de puntaje de opinión media (MOS) de origen colectivo en Amazon Mechanical Turk sugieren que el enfoque ofrece una calidad de audio tan buena como el mejor método WaveNet disponible públicamente.

    "En el mundo de la síntesis de voz, existe la necesidad de modelos que generen voz más de un orden de magnitud más rápido en tiempo real, ", Dijo Prenger." Esperamos que WaveGlow pueda satisfacer esta necesidad y al mismo tiempo sea más fácil de implementar y mantener que otros modelos existentes. En el mundo del aprendizaje profundo, Creemos que este tipo de enfoque que utiliza una red neuronal invertible y la función de pérdida simple resultante está relativamente poco estudiado. WaveGlow proporciona otro ejemplo de cómo este enfoque puede dar resultados generativos de alta calidad a pesar de su relativa simplicidad ".

    El código de WaveGlow está disponible en línea y pueden acceder otras personas que deseen probarlo o experimentar con él. Mientras tanto, los investigadores están trabajando para mejorar la calidad de los clips de audio sintetizados afinando su modelo y llevando a cabo evaluaciones adicionales.

    "No hemos realizado muchos análisis para ver qué tan pequeña es una red con la que podemos salirnos con la nuestra, ", Dijo Prenger." La mayoría de nuestras decisiones de arquitectura se basaron en partes muy tempranas de la capacitación. Sin embargo, las redes más pequeñas con mayor tiempo de entrenamiento pueden generar un sonido igualmente bueno. Hay muchas direcciones interesantes que esta investigación podría tomar en el futuro ".

    © 2018 Science X Network




    © Ciencia https://es.scienceaq.com