• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • La voz profunda mejorada puede imitar cualquier voz en cuestión de segundos

    Enfoques de adaptación y codificación de hablantes para la formación, clonación y generación de audio. Crédito:arXiv:1802.06006 [cs.CL]

    A través del documento técnico que han subido al arXiv servidor de preimpresión, un equipo de Baidu (la respuesta de China a Google) ha anunciado una actualización de su aplicación de texto a voz llamada Deep Voice. Ahora, en lugar de tomar media hora o más para analizar la voz de una persona y replicarla, el sistema puede hacerlo en menos de un minuto. El sistema basado en redes neuronales es parte de un esfuerzo del equipo de Baidu para hacer que las máquinas suenen más como humanos cuando nos "hablan".

    Hay dos partes del sistema. La primera consiste en grabar muestras de voz para permitir que el sistema aprenda cómo suena la voz del sujeto. La segunda parte lee el texto definido por el usuario en voz alta con la voz del sujeto.

    Varios grupos han estado trabajando en proyectos destinados a replicar el sonido de la voz de una persona individual, aparentemente para permitir que los asistentes robóticos suenen como asistentes humanos reales. Por lo tanto, un programa que convierte texto en palabras que suenan como tú, tu vecino, No se espera que Donald Trump o la Reina de Inglaterra ofrezcan mucho en cuanto a un producto final, aunque Baidu sugiere que podría ser utilizado por personas que han perdido el uso de su voz. En lugar de, tiene la intención de ser un trampolín hacia cosas más grandes. El nuevo sistema el equipo informa, funciona de manera óptima cuando se le dan 100 muestras de voz de cinco segundos. También puede manipular una voz, permitir que las personas escuchen cómo pueden sonar, por ejemplo, con acento británico, o como alguien del sexo opuesto. También está mejorando a la hora de imitar voces, y ahora es capaz de engañar al software de reconocimiento de voz el 95 por ciento de las veces, y una prueba en humanos le dio al sistema una calificación promedio de 3,16 sobre 4.

    Pero, como han señalado muchos en la prensa, la tecnología podría causar problemas. Los interrogatorios grabados por la policía podrían volverse inútiles si alguien con un teléfono inteligente pudiera generar la misma conversación. También está el problema del robo de identidad. Si un ladrón puede robar tus datos y tu voz, es posible que nunca lo recuperes. O considere los operativos políticos que publican grabaciones falsas de políticos que tienen conversaciones que podrían influir en una elección.

    © 2018 Tech Xplore




    © Ciencia https://es.scienceaq.com