• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Haciendo las herramientas para conectar isiXhosa e isiZulu a la era digital

    Las herramientas de software pueden llevar varios idiomas a espacios completamente nuevos. Crédito:Zubada / Shutterstock

    Vivimos en un mundo donde se hablan alrededor de 7000 idiomas, y una en la que las tecnologías de la información y la comunicación se están volviendo cada vez más omnipresentes. Esto impone demandas cada vez mayores a más, y más avanzado, Tecnologías del lenguaje humano (HLT).

    Estas tecnologías comprenden métodos computacionales, programas informáticos y dispositivos electrónicos especializados para analizar, producir o modificar textos y discursos.

    Interactuar con un idioma como el inglés es más fácil gracias a las muchas herramientas que lo apoyan, como correctores ortográficos en navegadores y autocompletar para mensajes de texto. Esto se debe principalmente a que el inglés tiene una gramática relativamente simple y bien investigada, más datos de los que el software puede aprender, y financiación sustancial para desarrollar herramientas. La situación es algo o muy diferente para la mayoría de los idiomas del mundo.

    Esto está empezando a cambiar. Multinacionales con fines de lucro como Google, Facebook y Microsoft, por ejemplo, han invertido en el desarrollo de HLT también para lenguas africanas.

    Investigadores y científicos, yo incluido también estoy investigando y creando estas tecnologías. Tiene una relevancia directa para la sociedad:idiomas, y las identidades y culturas entrelazadas con ellos, son un recurso nacional para cualquier país. En un país como Sudáfrica aprender diferentes idiomas puede fomentar la cohesión y la inclusión.

    Solo aprendiendo un idioma sin embargo, no es suficiente si no hay una infraestructura que lo respalde. Por ejemplo, ¿Cuál es el punto de buscar en la Web? decir, isiXhosa cuando los algoritmos del motor de búsqueda no pueden procesar las palabras correctamente de todos modos y, por lo tanto, no devuelven los resultados que está buscando? ¿Dónde están los correctores ortográficos para ayudarlo a escribir correos electrónicos? ensayos escolares, o artículos de noticias?

    Es por eso que hemos estado sentando bases teóricas y creando herramientas de prueba de concepto para varios idiomas sudafricanos. Esto incluye correctores ortográficos para isiZulu e isiXhosa y la generación de texto principalmente en estos idiomas a partir de entradas estructuradas.

    Usar reglas del lenguaje para desarrollar herramientas

    El desarrollo de herramientas para el grupo de idiomas Nguni, e isiZulu e isiXhosa en particular, no fue simplemente un caso de herramientas de copiar y pegar del inglés. Tuve que desarrollar algoritmos novedosos que pudieran manejar una gramática bastante diferente. También he colaborado con lingüistas para descubrir los detalles de cada idioma.

    Por ejemplo, incluso generar automáticamente el sustantivo plural en isiZulu a partir de un sustantivo en singular requería un nuevo enfoque que combinaba la sintaxis, cómo está escrito, con la semántica (el significado) de los sustantivos mediante el uso de su característico sistema de clases de sustantivos. En inglés, simplemente las reglas basadas en la sintaxis pueden hacer el trabajo.

    Los enfoques basados ​​en reglas también se prefieren para los analizadores morfológicos, que dividen cada palabra en sus partes constituyentes, y para la generación de lenguaje natural. La generación de lenguaje natural implica tomar datos estructurados, información o conocimiento, como los números en las columnas de una hoja de cálculo, y crear texto legible a partir de ellos.

    Una forma sencilla de darse cuenta de eso es utilizar plantillas donde el software encaja en los valores dados por los datos o la teoría lógica. Esto no es posible para isiZulu, porque los constituyentes de la oración dependen del contexto.

    Se necesita un motor gramatical para generar correctamente incluso las oraciones más básicas. Hemos trabajado en los aspectos centrales del flujo de trabajo en el motor. Esto se está ampliando con más detalles de los verbos.

    Usar mucho texto para desarrollar herramientas

    El enfoque basado en reglas requiere muchos recursos. Esta, en combinación con la publicidad global en torno a "Big Data", ha puesto en primer plano los enfoques basados ​​en datos.

    La esperanza es que ahora se puedan desarrollar herramientas de mejor calidad con menos esfuerzo y que sea más fácil reutilizar esas herramientas para idiomas relacionados. Esto puede funcionar siempre que uno tenga mucho texto de buena calidad, denominado corpus.

    Estos corpus se están desarrollando, y el recientemente establecido Centro Sudafricano de Recursos Digitales del Lenguaje (SADiLaR) tiene como objetivo poner en común recursos computacionales. Investigamos los efectos de un corpus sobre la calidad de un corrector ortográfico isiZulu, que mostró que aprender el modelo de lenguaje basado en estadísticas en textos antiguos como la Biblia no se transfiere bien a los textos modernos como las noticias del periódico Isolezwe, ni viceversa.

    El corrector ortográfico tiene aproximadamente un 90% de precisión en la detección de errores de una sola palabra y parece contribuir a la intelectualización de isiZulu.

    Sus algoritmos utilizan trigramas y probabilidades de que ocurran en el corpus para calcular la probabilidad de que una palabra esté escrita correctamente. en lugar de un enfoque basado en un diccionario que no es práctico para aglutinar los idiomas. Los algoritmos se reutilizaron para isiXhosa simplemente alimentándolo con un pequeño corpus de isiXhosa:logró aproximadamente un 80% de precisión incluso sin optimizaciones.

    También se aplican enfoques basados ​​en datos en herramientas para encontrar información en línea, es decir., para desarrollar motores de búsqueda como un 'Google para isiZulu'. Algoritmos para traducción automática basada en datos, por otra parte, puede ser engañado fácilmente por datos de entrenamiento fuera del dominio de los que tiene que aprender los patrones.

    Relevancia para Sudáfrica

    Este tipo de generación de lenguaje natural podría ser increíblemente útil en Sudáfrica. El país tiene 11 idiomas oficiales, con el inglés como idioma de negocios. Eso ha resultado en que los otros 10 sean marginados, y en particular aquellos que ya tenían escasos recursos.

    Esta tendencia va en contra de los derechos de los ciudadanos y las obligaciones del estado como se describe en la Constitución. Estas obligaciones van más allá de la mera promoción del lenguaje. Llevar, por ejemplo, el derecho a tener acceso al sistema público de salud. Un estudio mostró que solo el 6% de las consultas médico-paciente se realizaron en el idioma del hogar del paciente. El otro 94% esencialmente no recibió la atención de calidad que merecía debido a las barreras del idioma.

    El tipo de investigación en la que estoy trabajando con mi equipo puede ayudar. Podría contribuir a, entre otros, la realización de tecnologías como la generación automática de notas de alta del paciente en el propio idioma, previsiones meteorológicas basadas en texto, y ejercicios de aprendizaje de idiomas en línea.

    Este artículo se publicó originalmente en The Conversation. Lea el artículo original.




    © Ciencia https://es.scienceaq.com