• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Otro
    El sistema de software de video sincroniza los labios con otros idiomas
    Si bien los sistemas de traducción actuales solo pueden generar salida de voz traducida o subtítulos textuales para contenido de video, el protocolo de traducción automática cara a cara puede sincronizar lo visual, para que el estilo de voz y el movimiento de los labios coincidan con el idioma de destino. Prajwal Renukanand

    Un equipo de investigadores de la India ha ideado un sistema para traducir palabras a un idioma diferente y hacer que parezca que los labios de un hablante se mueven en sincronía con ese idioma.

    Traducción automática cara a cara, como se describe en este documento de octubre de 2019, es un avance sobre la traducción de texto a texto o de voz a voz, porque no solo traduce el habla, pero también proporciona una imagen facial sincronizada con los labios.

    Para entender cómo funciona esto, mira el video de demostración a continuación, creado por los investigadores. En la marca de las 6:38, Verá un videoclip de la difunta princesa Diana en una entrevista de 1995 con el periodista Martin Bashir, explicando "Me gustaría ser la reina de los corazones de las personas, en el corazón de la gente, pero no me veo siendo una reina de este país ".

    Un momento después, la verá pronunciar la misma cita en hindi, con los labios moviéndose, como si ella realmente hablara ese idioma.

    "Comunicarse de manera eficaz a través de las barreras del idioma siempre ha sido una de las principales aspiraciones de los seres humanos en todo el mundo, "Prajwal K.R., un estudiante de posgrado en ciencias de la computación en el Instituto Internacional de Tecnología de la Información en Hyderabad, India, explica por correo electrónico. Él es el autor principal del artículo junto con su colega Rudrabha Mukhopadhyay.

    "Hoy dia, Internet está lleno de videos de caras que hablan:YouTube (300 horas subidas por día), conferencias en línea, videoconferencia, películas, Programas de televisión, etc. "Prajwal, que lleva su nombre de pila, escribe. "Los sistemas de traducción actuales solo pueden generar una salida de voz traducida o subtítulos textuales para dicho contenido de video. No manejan el componente visual. Como resultado, el discurso traducido cuando se superpone al video, los movimientos de los labios no estarían sincronizados con el audio.

    "Por lo tanto, Nos basamos en los sistemas de traducción de voz a voz y proponemos una canalización que puede tomar un video de una persona que habla en un idioma de origen y generar un video del mismo hablante hablando en un idioma de destino, de modo que el estilo de voz y los movimientos de los labios coincidan. el habla del idioma de destino, "Prajwal dice". Al hacerlo, el sistema de traducción se vuelve holístico, y como muestran nuestras evaluaciones humanas en este documento, mejora significativamente la experiencia del usuario al crear y consumir contenido audiovisual traducido ".

    La traducción cara a cara requiere una serie de hazañas complejas. "Dado un video de una persona hablando, tenemos dos flujos de información principales para traducir:la información visual y de voz, ", explica. Lo logran en varios pasos importantes". El sistema primero transcribe las oraciones en el habla utilizando el reconocimiento automático de voz (ASR). Esta es la misma tecnología que se utiliza en los asistentes de voz (Asistente de Google, por ejemplo) en dispositivos móviles ". A continuación, las oraciones transcritas se traducen al idioma deseado utilizando modelos de traducción automática neuronal, y luego la traducción se convierte en palabras habladas con un sintetizador de texto a voz, la misma tecnología que usan los asistentes digitales.

    Finalmente, una tecnología llamada LipGAN corrige los movimientos de los labios en el video original para que coincida con el discurso traducido.

    Cómo el habla pasa de la entrada inicial a la salida sincronizada. Prajwal Renukanand

    "Por lo tanto, también obtenemos un video completamente traducido con sincronización de labios, "Explica Prajwal.

    "LipGAN es la contribución novedosa clave de nuestro artículo. Esto es lo que trae la modalidad visual a la imagen. Es más importante ya que corrige la sincronización de labios en el video final, lo que mejora significativamente la experiencia del usuario ".

    La intención no es el engaño, Pero el intercambio de conocimientos

    Un artículo, publicado el 24 de enero de 2020 en New Scientist, describió el avance como un "deepfake, "un término para los videos en los que las caras se han intercambiado o alterado digitalmente con la ayuda de inteligencia artificial, a menudo para crear una impresión engañosa, como explica esta historia de la BBC. Pero Prajwal sostiene que es una representación incorrecta de la traducción cara a cara, que no pretende engañar, sino más bien para hacer que el habla traducida sea más fácil de seguir.

    "Nuestro trabajo está dirigido principalmente a ampliar el alcance de los sistemas de traducción existentes para manejar contenido de video, ", explica." Este es un software creado con la motivación de mejorar la experiencia del usuario y romper las barreras del idioma en el contenido de video. Abre una amplia gama de aplicaciones y mejora la accesibilidad de millones de videos en línea ".

    El mayor desafío para hacer que la traducción presencial funcionara fue el módulo de generación presencial. "Los métodos actuales para crear videos de sincronización de labios no podían generar rostros con las poses deseadas, lo que dificulta pegar la cara generada en el video de destino, ", Dice Prajwal." Incorporamos una "pose previa" como una entrada a nuestro modelo LipGAN, y como un resultado, podemos generar una cara sincronizada con los labios en la pose deseada que se puede combinar sin problemas en el video de destino ".

    Los investigadores imaginan que se utilizará la traducción cara a cara para traducir películas y videollamadas entre dos personas que hablan un idioma diferente. "Hacer que los personajes digitales de las películas animadas canten / hablen también se demuestra en nuestro video, "Notas de Prajwal.

    Además, Él prevé que el sistema se utilizará para ayudar a los estudiantes de todo el mundo a comprender los videos de conferencias en línea en otros idiomas. "Millones de estudiantes de idiomas extranjeros en todo el mundo no pueden comprender el excelente contenido educativo disponible en línea, porque estan en ingles, " el explica.

    "Más lejos, en un país como la India con 22 idiomas oficiales, nuestro sistema puede, en el futuro, traduzca el contenido de las noticias de televisión a diferentes idiomas locales con una sincronización de labios precisa de los presentadores de noticias. Por lo tanto, la lista de aplicaciones se aplica a cualquier tipo de contenido de video de cara que habla, que debe ser más accesible en todos los idiomas ".

    Aunque Prajwal y sus colegas tienen la intención de que su avance se utilice de manera positiva, la capacidad de poner palabras extranjeras en la boca de un orador preocupa a un destacado experto en ciberseguridad de EE. UU., que teme que los videos alterados sean cada vez más difíciles de detectar.

    "Si miras el video, puedes saber si miras de cerca, la boca tiene algo de borrosidad, "dice Anne Toomey McKenna, un académico distinguido de Cyberlaw and Policy en Dickinson Law de Penn State University, y profesor en el Instituto de Ciencias Computacionales y de Datos de la universidad, en una entrevista por correo electrónico. "Eso continuará minimizándose a medida que los algoritmos continúen mejorando. Eso será cada vez menos perceptible para el ojo humano".

    McKenna por ejemplo, imagina cómo un video alterado de la comentarista de MSNBC Rachel Maddow podría usarse para influir en las elecciones en otros países, al "transmitir información que es inexacta y lo contrario de lo que ella dijo".

    Prajwal también está preocupado por el posible uso indebido de videos alterados, pero cree que se pueden desarrollar precauciones para protegerse contra tales escenarios. y que el potencial positivo para aumentar la comprensión internacional supera los riesgos de la traducción automática cara a cara. (En el lado beneficioso, esta publicación de blog prevé la traducción del discurso de Greta Thunberg en la cumbre climática de la ONU en septiembre de 2019 a una variedad de idiomas diferentes utilizados en la India).

    "Cada pieza de tecnología poderosa se puede utilizar para una gran cantidad de bienes, y también tener efectos nocivos, "Prajwal señala." Nuestro trabajo es, De hecho, un sistema de traducción que puede manejar contenido de video. El contenido traducido por un algoritmo definitivamente 'no es real, 'pero este contenido traducido es esencial para las personas que no comprenden un idioma en particular. Más lejos, en la etapa actual, dicho contenido traducido automáticamente es fácilmente reconocible por algoritmos y espectadores. Simultaneamente, Se está llevando a cabo una investigación activa para reconocer tal contenido alterado. Creemos que el esfuerzo colectivo de uso responsable, regulaciones estrictas, y los avances en la investigación para detectar el uso indebido pueden garantizar un futuro positivo para esta tecnología ".

    Ahora eso es cinematográfico

    Según Language Insight, un estudio realizado por investigadores británicos determinó que la preferencia de los espectadores por las películas extranjeras dobladas frente a las subtituladas afecta el tipo de película hacia la que gravitan. Aquellos a quienes les gustan los grandes éxitos de taquilla son más propensos a ver una versión doblada de una película, mientras que aquellos que prefieren los subtítulos es más probable que sean fanáticos de las importaciones de autor.

    © Ciencia https://es.scienceaq.com