• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Nuevo método para la síntesis de voces naturales a alta velocidad

    Un equipo de investigación del Instituto Nacional de Informática (NII / Tokio, Japón), incluido Xin Wang, Shinji Takaki y Junichi Yamagishi han desarrollado un modelo de filtro de fuente neuronal (NSF) para alta velocidad, síntesis de voz de alta calidad. Esta tecnica, que combina algoritmos de aprendizaje profundo recientes y un modelo clásico de producción de voz que se remonta a la década de 1960, es capaz no solo de generar formas de onda de voz de alta calidad que se asemejan mucho a la voz humana, sino también de realizar un aprendizaje estable a través de redes neuronales.

    Hasta la fecha, muchos sistemas de síntesis de voz han adoptado el enfoque de codificador de voz, un método para sintetizar formas de onda de voz que se usa ampliamente en redes de telefonía celular y otras aplicaciones. Sin embargo, la calidad de las formas de onda del habla sintetizadas por estos métodos sigue siendo inferior a la de la voz humana. En 2016, Una influyente empresa de tecnología extranjera propuso WaveNet, un método de síntesis de voz basado en algoritmos de aprendizaje profundo, y demostró la capacidad de sintetizar formas de onda de voz de alta calidad que se asemejan a la voz humana. Sin embargo, Un inconveniente de WaveNet es la estructura extremadamente compleja de sus redes neuronales, que exigen grandes cantidades de datos de voz para el aprendizaje automático y requieren el ajuste de parámetros y varios otros laboriosos procedimientos de prueba y error que se repiten muchas veces antes de que se puedan obtener predicciones precisas.

    Resumen y logros de la investigación

    Uno de los codificadores de voz más conocidos es el codificador de voz con filtro de fuente, que se desarrolló en la década de 1960 y sigue siendo de uso generalizado en la actualidad. El equipo de investigación de NII infundió el método de codificador de voz de filtro de fuente convencional con algoritmos modernos de redes neuronales para desarrollar una nueva técnica para sintetizar formas de onda de voz de alta calidad que se asemejan a la voz humana. Entre las ventajas de este método de filtro de fuente neuronal (NSF) está la estructura simple de sus redes neuronales, que requieren solo alrededor de una hora de datos de voz para el aprendizaje automático y pueden obtener resultados predictivos correctos sin un ajuste extenso de parámetros. Es más, Las pruebas de escucha a gran escala han demostrado que las formas de onda del habla producidas por técnicas NSF son comparables en calidad a las generadas por WaveNet.

    Dado que la base teórica de NSF difiere de las tecnologías patentadas utilizadas por influyentes empresas de TIC en el extranjero, Es probable que la adopción de técnicas NSF estimule nuevos avances tecnológicos en la síntesis de voz. Por esta razón, el código fuente que implementa el método NSF se ha puesto a disposición del público sin costo, permitiendo que sea ampliamente utilizado.


    © Ciencia https://es.scienceaq.com