• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • La Biblia ayuda a los investigadores a perfeccionar los algoritmos de traducción

    Se utilizaron textos de 34 versiones de la Biblia en inglés para ayudar a mejorar los sistemas de transferencia de estilo basados ​​en computadora. El resultado puede crear diferentes versiones de pasajes escritos para adaptarse a audiencias específicas. Crédito:Fotografía bíblica:Chris Downer. Ilustración compuesta:Keith Carlson.

    En busca de inspiración para mejorar los traductores de texto informáticos, Los investigadores de Dartmouth College recurrieron a la Biblia en busca de orientación. El resultado es un algoritmo entrenado en varias versiones de los textos sagrados que puede convertir obras escritas en diferentes estilos para diferentes públicos.

    Las herramientas de Internet para traducir texto entre idiomas como inglés y español están ampliamente disponibles. La creación de traductores de estilo, herramientas que mantienen el texto en el mismo idioma pero transforman el estilo, ha sido mucho más lenta en surgir. En parte, Los esfuerzos para desarrollar los traductores se han visto obstaculizados por la dificultad de adquirir la enorme cantidad de datos necesarios. Aquí es donde el equipo de investigación recurrió a la Biblia.

    Además de ser una fuente de guía espiritual para muchas personas en todo el mundo, el equipo dirigido por Dartmouth vio en la Biblia "una gran, conjunto de datos sin explotar de texto paralelo alineado ". Más allá de proporcionar inspiración infinita, cada versión de la Biblia contiene más de 31, 000 versos que los investigadores utilizaron para producir más de 1,5 millones de combinaciones únicas de versos de origen y destino para conjuntos de entrenamiento de aprendizaje automático.

    Según la investigación publicada en la revista Ciencia Abierta de la Royal Society , este no es el primer conjunto de datos paralelo creado para la traducción de estilos. Pero es el primero que usa la Biblia. Otros textos que se han utilizado en el pasado, que van desde Shakespeare hasta las entradas de Wikipedia, proporcionar conjuntos de datos que sean mucho más pequeños o no tan adecuados para la tarea de aprender la traducción de estilos.

    "La Biblia en inglés viene en diferentes estilos de escritura, convirtiéndolo en el texto fuente perfecto para trabajar con la traducción de estilo, "dijo Keith Carlson, un doctorado estudiante de Dartmouth y autor principal del artículo de investigación sobre el estudio.

    Como beneficio adicional para el equipo de investigación, la Biblia ya está completamente indexada por el uso constante del libro, números de capítulo y versículo. La organización predecible del texto entre versiones elimina el riesgo de errores de alineación que podrían ser causados ​​por métodos automáticos de hacer coincidir diferentes versiones del mismo texto.

    "La Biblia es un conjunto de datos 'divinos' con los que trabajar para estudiar esta tarea, "dijo Daniel Rockmore, profesor de informática en Dartmouth y autor colaborador del estudio. "Los seres humanos han estado realizando la tarea de organizar los textos bíblicos durante siglos, así que no tuvimos que poner nuestra fe en algoritmos de alineación menos confiables ".

    Para definir el "estilo" del estudio, los investigadores hacen referencia a la longitud de la oración, el uso de voces pasivas o activas, y elección de palabras que podrían resultar en textos con diversos grados de simplicidad o formalidad. Según el estudio:"Una redacción diferente puede transmitir distintos niveles de cortesía o familiaridad con el lector, mostrar información cultural diferente sobre el escritor, ser más fácil de entender para ciertas poblaciones ".

    El equipo utilizó 34 versiones de la Biblia estilísticamente distintas que varían en complejidad lingüística desde la "Versión King James" hasta la "Biblia en inglés básico". Los textos se introdujeron en dos algoritmos:un sistema estadístico de traducción automática llamado "Moisés" y un marco de red neuronal comúnmente utilizado en la traducción automática. "Seq2Seq."

    Si bien se usaron diferentes versiones de la Biblia para entrenar el código de computadora, En última instancia, podrían desarrollarse sistemas que traduzcan el estilo de cualquier texto escrito para diferentes audiencias. Como ejemplo, un traductor de estilo podría tomar una selección en inglés de "Moby Dick" y traducirla a diferentes versiones adecuadas para lectores jóvenes, hablantes de inglés no nativos, o cualquiera de una variedad de audiencias.

    "La simplificación del texto es solo un tipo específico de transferencia de estilo. En términos más generales, nuestros sistemas tienen como objetivo producir texto con el mismo significado que el original, pero hazlo con otras palabras, "dijo Carlson.

    Dartmouth College tiene una larga historia de innovación en informática. El término "inteligencia artificial" se acuñó en Dartmouth durante una conferencia de 1956 que creó la disciplina de investigación de la IA. Otros avances incluyen el diseño de BASIC, el primer lenguaje de programación accesible y de propósito general, y el Sistema de tiempo compartido de Dartmouth que contribuyó al sistema operativo moderno.


    © Ciencia https://es.scienceaq.com