Crédito:CC0 Public Domain
Este mes ha estado disponible una nueva metodología para mejorar la traducción automática a través de la Universidad de Ámsterdam. El proyecto DatAptor, financiado por NWO / STW, avanza cada vez más las máquinas de traducción mediante la selección de conjuntos de datos.
La metodología se utiliza en la aplicación Matching Data, ofrecido por TAUS, un importante grupo de expertos en el campo de la traducción automática. Esta aplicación aborda un gran desafío dentro de la traducción digital:para una buena traducción es necesario capacitar a la máquina de traducción con fuentes confiables y conjuntos de datos que contengan el tipo de palabras relevante. Por ejemplo, traducir un texto legal requiere un vocabulario completamente diferente y un tipo de traducción diferente que, por ejemplo, un informe periodístico.
Implementación exitosa
En 2013, el proyecto DatAptor, supervisado por el profesor Khalil Sima'an del Instituto de Lógica UvA, Lenguaje y Computación, recibió fondos de la fundación tecnológica STW (ahora:NWO Domain Applied and Engineering Sciences) para hacer frente a este problema. Los resultados de la investigación del proyecto DatAptor ahora han sido implementados con éxito por el grupo de expertos TAUS. Ofrecen la nueva tecnología bajo el nombre Matching Data.
En el weblog de TAUS, Sima'an dice:"Nuestro sueño era hacer de la World Wide Web la fuente de todas las selecciones de datos. Pero decidimos comenzar de manera más modesta y hacer del enorme repositorio de datos TAUS nuestro campo de búsqueda primero. En DatAptor aprendimos que cada dominio es una mezcla de muchos subdominios. La combinatoria de subdominios en un repositorio muy grande alberga una gran cantidad de nuevos selecciones sin explotar. Por lo tanto, si el usuario proporciona un corpus de consultas que representa su dominio de interés, es probable que el método Matching Data encuentre una selección adecuada en el repositorio ".