• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Desarrollo de una herramienta de traducción automática para ayudar a los solicitantes de asilo en la frontera

    Crédito:CC0 Dominio público

    Imagínese huyendo de la persecución en casa, sobreviviendo a un viaje difícil, llegando a un nuevo país para solicitar asilo, solo para ser rechazado en la frontera porque nadie habla su idioma. Esta es la realidad de cientos de migrantes que llegan a los Estados Unidos desde áreas remotas de América Central que no hablan idiomas comunes, como el español o el portugués.

    La escasez de traductores para los solicitantes de asilo indígenas que hablen idiomas tradicionales significa que muchos deben esperar meses o incluso años en México para solicitar asilo, lo que genera un gran retraso en un sistema de inmigración ya abrumado.

    "El sistema de inmigración de EE. UU. está configurado para manejar inglés y español", dijo Katy Felkner, Ph.D. estudiante de informática en la Escuela de Ingeniería Viterbi de la USC, “pero hay varios cientos de personas al año que hablan lenguas minoritarias, en particular, que hablan lenguas indígenas de México y América Central, que no pueden acceder a ninguno de los recursos y asistencia legal que existe para los migrantes de habla hispana”.

    En otros casos, las personas no pueden explicar las amenazas a sus vidas en sus lugares de origen, lo que podría ser la base para el asilo. Cuando los migrantes no pueden entender o ser entendidos, no hay forma de establecer la amenaza a su seguridad durante una "entrevista de miedo creíble" realizada por el Departamento de Seguridad Nacional de EE. UU.

    Las estadísticas son asombrosas:los inmigrantes que buscan asilo sin un abogado prevalecieron en solo el 13 por ciento de sus casos, mientras que aquellos con un abogado prevalecieron en el 74 por ciento de sus casos, según un estudio de Fordham Law Review.

    Felkner, quien realiza su investigación en el Instituto de Ciencias de la Información (ISI) de la USC bajo la dirección de Jonathan May, profesor asociado de investigación, está trabajando en el desarrollo de una solución:un sistema de traducción automática para los idiomas indígenas mexicanos y centroamericanos que pueden usar las organizaciones que brindan servicios legales. ayuda a los refugiados y solicitantes de asilo.

    "Las personas se ven directamente afectadas negativamente porque no hay intérpretes disponibles para sus idiomas en las organizaciones de asistencia legal", dijo Felkner. "Esta es una forma concreta e inmediata en la que podemos utilizar el procesamiento del lenguaje natural para el bien social".

    "Las personas se ven directamente afectadas negativamente porque no hay intérpretes disponibles para sus idiomas en las organizaciones de asistencia legal". Katy Felkner.

    Dar a los solicitantes de asilo una oportunidad justa

    Felkner está trabajando actualmente en un sistema para el idioma guatemalteco, que es uno de los 25 idiomas más comunes que se hablan en los tribunales de inmigración en los últimos años, según The New York Times.

    "Estamos tratando de proporcionar un sistema de traducción aproximado para permitir que las organizaciones sin fines de lucro y las ONG que no tienen los recursos contraten intérpretes para brindar cierto nivel de asistencia legal y brindarles a los solicitantes de asilo una oportunidad justa de superar esa entrevista de miedo creíble", dijo. Felkner.

    El interés de Felkner por los idiomas comenzó durante su licenciatura en la Universidad de Oklahoma, donde obtuvo una doble titulación en informática y letras, con especialización en latín. Durante su primer año de universidad, trabajó en un proyecto llamado Biblioteca Latina Digital, escribiendo código Python para crear versiones digitales de textos antiguos.

    "Eso es lo que me hizo pensar en la tecnología del lenguaje", dijo Felkner. "Aprendí algunos conceptos básicos del procesamiento del lenguaje natural y terminé centrándome en la traducción automática porque creo que es una de las áreas con el impacto humano más inmediato y también uno de los problemas más difíciles en esta área".

    Si bien Felkner y May se concentran actualmente en desarrollar un traductor de texto a texto, el objetivo final, dentro de unos años, es un sistema de traducción de voz a voz multilingüe:el abogado hablaría inglés o español y el sistema traduciría automáticamente a la lengua indígena del solicitante de asilo y viceversa.

    Empujar el límite inferior

    Los sistemas de traducción se entrenan utilizando datos paralelos:en otras palabras, aprenden al ver pares de traducción, o el mismo texto en ambos idiomas, a nivel de oración. Pero hay muy pocos datos paralelos en las lenguas indígenas, incluido el kʼicheʼ, a pesar de que lo hablan alrededor de un millón de personas.

    Esto se debe a que los datos paralelos solo existen cuando hay una razón de peso para traducir hacia o desde ese idioma. Esencialmente, dijo Felkner, si es comercialmente viable —Disney doblando películas del inglés al español, por ejemplo— o si surge de una motivación religiosa.

    En muchos casos, debido a la influencia de los misioneros en toda América Latina, la única fuente de datos paralela, el mismo texto en ambos idiomas, es la Biblia, lo que no da mucho con qué trabajar a los investigadores.

    "Imagina que eres un angloparlante que intenta aprender español, pero el único español que puedes ver es el Nuevo Testamento", dijo Felkner. "Sería bastante difícil".

    Esas son malas noticias para los modelos de aprendizaje profundo hambrientos de datos utilizados por los sistemas de traducción de idiomas que adoptan un enfoque de cantidad sobre calidad.

    "Los modelos tienen que ver una palabra, frase, construcción gramatical un montón de veces para ver dónde es probable que ocurra y a qué corresponde en el otro idioma", dijo Felkner. "Pero no tenemos esto para el kʼicheʼ y otros idiomas indígenas de recursos extremadamente bajos".

    Los números hablan por si mismos. Del inglés al kʼicheʼ, Felkner tiene aproximadamente 15 000 oraciones de datos paralelos y 8 000 oraciones del español al kʼicheʼ. Por el contrario, el modelo de español a inglés que entrenó para un trabajo de referencia tenía 13 millones de oraciones de datos de entrenamiento.

    "Estamos tratando de trabajar esencialmente sin datos", dijo Felkner. "Y este es el caso de casi todos los idiomas de bajos recursos, más aún en las Américas".

    Una táctica en el trabajo existente de bajos recursos utiliza lenguajes de recursos más altos estrechamente relacionados como punto de partida:por ejemplo, para traducir del inglés al rumano, comenzaría a entrenar el modelo en español.

    Pero dado que los idiomas indígenas de las Américas se desarrollaron por separado de Europa y Asia, la mayoría son de bajos recursos, y la mayoría de ellos son de muy bajos recursos, un término que Felkner acuñó para describir un idioma con menos de alrededor de 30,000 oraciones de datos paralelos.

    "Realmente estamos tratando de empujar el límite inferior de la cantidad de datos que puede tener para entrenar con éxito un sistema de traducción automática", dijo Felkner.

    Crear algo de la nada

    Pero Felkner, con su experiencia en lingüística, no se dejó intimidar. Durante los últimos dos años, ha trabajado en la creación de datos de lenguaje para los modelos utilizando algunos trucos del oficio en el procesamiento del lenguaje natural.

    Una táctica consiste en enseñar al modelo a completar la tarea abstracta de traducción y luego ponerlo a trabajar en el idioma específico en cuestión. "Es el mismo principio que aprender a conducir un autobús aprendiendo primero a conducir un automóvil", dijo Felkner.

    Para hacer esto, Felkner tomó un modelo de inglés a español y luego lo afinó para kʼicheʼ a español. Resultó que este enfoque, llamado transferencia de aprendizaje, se mostró prometedor incluso en un caso de recursos extremadamente bajos. "Eso fue muy emocionante", dijo Felkner. "El enfoque de transferencia de aprendizaje y la capacitación previa de un idioma no estrechamente relacionado nunca se había probado realmente en este entorno de recursos extremadamente bajos, y descubrí que funcionó".

    También aprovechó otro recurso:el uso de libros de gramática publicados por lingüistas de campo a mediados y finales de los 70 para generar datos sintéticos plausibles que pueden usarse para ayudar a los modelos a aprender. Felkner está usando los libros de gramática para escribir reglas que la ayudarán a construir oraciones sintácticamente correctas de los diccionarios. El término técnico para esto es arranque o aumento de datos, o coloquialmente, "finge hasta que lo logres".

    "Usamos esto como datos de pre-entrenamiento, esencialmente para enseñar a los modelos los conceptos básicos de la gramática", dijo Felkner. "Luego, podemos guardar nuestros datos reales, como los datos paralelos de la Biblia, para el período de ajuste cuando aprenderá lo que es semánticamente significativo o lo que realmente tiene sentido".

    Finalmente, está probando una técnica que consiste en analizar sustantivos en los lados de la Biblia en inglés y kʼicheʼ, reemplazándolos con otros sustantivos y luego usando un conjunto de reglas para declinar correctamente las oraciones para la gramática.

    Por ejemplo, si los datos de entrenamiento tienen la oración:"el niño pateó la pelota", los investigadores podrían usar este enfoque para generar oraciones como "la niña pateó la pelota", "el médico pateó la pelota", "el maestro pateó la pelota". pelota', que pueden convertirse en datos de entrenamiento.

    "La idea es usar estos ejemplos generados sintéticamente para construir esencialmente una versión aproximada del sistema, de modo que podamos aprovechar mucho la pequeña cantidad de datos reales que tenemos, y ajustarlos exactamente donde queremos". quiero que sea", dijo Felkner.

    Impacto humanitario inmediato

    Trabajar en la traducción de idiomas con recursos extremadamente bajos no es fácil y, a veces, puede ser frustrante, admite Felkner. Pero el desafío y el potencial de cambiar vidas la impulsan a tener éxito.

    Dentro del próximo año, planea realizar un viaje de campo para observar cómo las organizaciones de asistencia legal están trabajando en la frontera y dónde podría encajar su sistema en su flujo de trabajo. También está trabajando en un sitio web de demostración para el sistema, que espera presentar en 2023, y una vez desarrollado, espera que el sistema algún día pueda aplicarse a otros idiomas indígenas.

    "Subir colinas en idiomas con muchos recursos puede hacer que tu Alexa, Google Home o Siri te entiendan mejor, pero no es transformador de la misma manera", dijo Felkner. "Estoy haciendo este trabajo porque tiene un impacto humanitario inmediato. Como dijo una vez JFK, elegimos ir a la Luna no porque sea fácil, sino porque es difícil. A menudo pienso que las cosas que vale la pena hacer son difíciles". ." + Explora más

    Eliminar el sesgo anti-queer en la predicción de texto




    © Ciencia https://es.scienceaq.com