Los avances en la tecnología de la comunicación han tenido un impacto importante en todo tipo de industrias, pero quizás ninguno más grande que en educación. Ahora, cualquier persona de todo el mundo puede escuchar en vivo una conferencia de un premio Nobel o obtener créditos de las universidades más prestigiosas a través del acceso a Internet. Sin embargo, la posible información que se puede obtener al mirar y escuchar en línea se pierde si la audiencia no puede entender el idioma del conferenciante. Para resolver este problema, científicos del Instituto de Ciencia y Tecnología de Nara (NAIST), Japón, presentó una solución con nuevo aprendizaje automático en la 240a reunión del Grupo de Interés Especial de Procesamiento del Lenguaje Natural, Sociedad de Procesamiento de la Información de Japón (IPSJ SIG-NL).
Los sistemas de traducción automática han hecho que sea notablemente sencillo pedir direcciones en un país extranjero. Algunas veces, los sistemas pueden cometer errores divertidos e inocentes, pero en general, logran una comunicación coherente, al menos para intercambios breves, sólo una oración o dos largas. En el caso de una presentación que puede extenderse más allá de una hora, como una conferencia académica, son mucho menos robustos.
"NAIST tiene un 20 por ciento de estudiantes extranjeros y, mientras se amplía el número de clases de inglés, las opciones que tienen estos estudiantes están limitadas por su habilidad japonesa, "explica el profesor NAIST Satoshi Nakamura, quien dirigió el estudio.
El grupo de investigación de Nakamura adquirió 46,5 horas de videos de conferencias archivados de NAIST con sus transcripciones y traducciones al inglés, y desarrolló un sistema basado en el aprendizaje profundo para transcribir el discurso de las conferencias en japonés y, posteriormente, traducirlo al inglés. Mientras mira los videos, los usuarios ven subtítulos en japonés e inglés que coinciden con el discurso del conferenciante.
Uno podría esperar que el resultado ideal serían traducciones simultáneas que podrían realizarse con presentaciones en vivo. Sin embargo, las traducciones en vivo limitan el tiempo de procesamiento y, por lo tanto, la precisión. "Debido a que colocamos videos con subtítulos en los archivos, encontramos mejores traducciones al crear subtítulos con un tiempo de procesamiento más largo, " él dice.
Las imágenes archivadas utilizadas para la evaluación consistieron en conferencias de robótica, procesamiento de voz e ingeniería de software. Curiosamente, la tasa de error de palabras en el reconocimiento de voz se correlacionó con la disfluencia en el habla de los profesores. Otro factor de las diferentes tasas de error fue el tiempo de conversación sin pausa. El corpus utilizado para la formación todavía era insuficiente y debería desarrollarse más para seguir mejorando.
"Japón quiere aumentar sus estudiantes internacionales y NAIST tiene una gran oportunidad de ser un líder en este esfuerzo. Nuestro proyecto no solo mejorará la traducción automática, también traerá mentes brillantes al país, " él continuó.