El sistema de software de video sincroniza los labios con otros idiomas
Si bien los sistemas de traducción actuales solo pueden generar salida de voz traducida o subtítulos textuales para contenido de video, el protocolo de traducción automática cara a cara puede sincronizar lo visual, para que el estilo de voz y el movimiento de los labios coincidan con el idioma de destino. Prajwal Renukanand
Un equipo de investigadores de la India ha ideado un sistema para traducir palabras a un idioma diferente y hacer que parezca que los labios de un hablante se mueven en sincronía con ese idioma.
Traducción automática cara a cara, como se describe en este documento de octubre de 2019, es un avance sobre la traducción de texto a texto o de voz a voz, porque no solo traduce el habla, pero también proporciona una imagen facial sincronizada con los labios.
Para entender cómo funciona esto, mira el video de demostración a continuación, creado por los investigadores. En la marca de las 6:38, Verá un videoclip de la difunta princesa Diana en una entrevista de 1995 con el periodista Martin Bashir, explicando "Me gustaría ser la reina de los corazones de las personas, en el corazón de la gente, pero no me veo siendo una reina de este país ".
Un momento después, la verá pronunciar la misma cita en hindi, con los labios moviéndose, como si ella realmente hablara ese idioma.
"Comunicarse de manera eficaz a través de las barreras del idioma siempre ha sido una de las principales aspiraciones de los seres humanos en todo el mundo, "Prajwal K.R., un estudiante de posgrado en ciencias de la computación en el Instituto Internacional de Tecnología de la Información en Hyderabad, India, explica por correo electrónico. Él es el autor principal del artículo junto con su colega Rudrabha Mukhopadhyay.
"Hoy dia, Internet está lleno de videos de caras que hablan:YouTube (300 horas subidas por día), conferencias en línea, videoconferencia, películas, Programas de televisión, etc. "Prajwal, que lleva su nombre de pila, escribe. "Los sistemas de traducción actuales solo pueden generar una salida de voz traducida o subtítulos textuales para dicho contenido de video. No manejan el componente visual. Como resultado, el discurso traducido cuando se superpone al video, los movimientos de los labios no estarían sincronizados con el audio.
"Por lo tanto, Nos basamos en los sistemas de traducción de voz a voz y proponemos una canalización que puede tomar un video de una persona que habla en un idioma de origen y generar un video del mismo hablante hablando en un idioma de destino, de modo que el estilo de voz y los movimientos de los labios coincidan. el habla del idioma de destino, "Prajwal dice". Al hacerlo, el sistema de traducción se vuelve holístico, y como muestran nuestras evaluaciones humanas en este documento, mejora significativamente la experiencia del usuario al crear y consumir contenido audiovisual traducido ".
La traducción cara a cara requiere una serie de hazañas complejas. "Dado un video de una persona hablando, tenemos dos flujos de información principales para traducir:la información visual y de voz, ", explica. Lo logran en varios pasos importantes". El sistema primero transcribe las oraciones en el habla utilizando el reconocimiento automático de voz (ASR). Esta es la misma tecnología que se utiliza en los asistentes de voz (Asistente de Google, por ejemplo) en dispositivos móviles ". A continuación, las oraciones transcritas se traducen al idioma deseado utilizando modelos de traducción automática neuronal, y luego la traducción se convierte en palabras habladas con un sintetizador de texto a voz, la misma tecnología que usan los asistentes digitales.
Finalmente, una tecnología llamada LipGAN corrige los movimientos de los labios en el video original para que coincida con el discurso traducido.