Descripción general de las tareas en IGLUE, que incluyen inferencia de lenguaje natural fundamentada, respuesta visual a preguntas, razonamiento fundamentado y recuperación multimodal. Cada tarea está asociada con un ejemplo de entrada y salida (traducciones al inglés en la parte inferior). Crédito:Actas de la trigésima novena Conferencia Internacional sobre Aprendizaje Automático (2022). DOI:10.48550/arXiv.2201.11732
Tantos idiomas; y, sin embargo, se permite que el inglés domine casi por completo cuando se trata de la tecnología de IA Machine Learning (ML). Si, por ejemplo, los investigadores están entrenando una computadora para captar el contenido de un texto aleatorio, las muestras de entrenamiento normalmente estarán en inglés.
"Esto introduce un importante sesgo cultural involuntario. Incluso después de un extenso entrenamiento, la máquina nunca habrá estado expuesta a la domesticación de toros en la India, a la cocina china con ollas calientes u otros fenómenos que son familiares para millones de personas, pero que simplemente mienten". fuera del horizonte nativo de habla inglesa", dice Ph.D. investigador Emanuele Bugliarello, Departamento de Ciencias de la Computación (DIKU), Universidad de Copenhague.
En un esfuerzo verdaderamente intercultural, Bugliarello y colegas de varios países han creado una nueva herramienta que fomenta un enfoque más diverso. IGLUE (Evaluación de comprensión del lenguaje basado en imágenes), como llamaron a la herramienta, es un punto de referencia que permite calificar la eficiencia de una solución de ML en 20 idiomas (en lugar de solo en inglés).
Su artículo científico que presenta IGLUE ha sido aceptado para su publicación en las próximas Actas de la trigésima novena Conferencia Internacional sobre Aprendizaje Automático , una de las mejores conferencias en el campo.
Los voluntarios proporcionaron imágenes específicas de la cultura
¿Cómo puede marcar la diferencia un nuevo punto de referencia?
"Cuando los equipos de investigación de ML crean nuevas soluciones, siempre son muy competitivos. Si otro grupo ha logrado resolver una tarea de ML determinada con un 98 % de precisión, intentará obtener el 99 % y así sucesivamente. Esto es lo que impulsa el campo hacia adelante. Pero la desventaja es que si no tiene un punto de referencia adecuado para una función determinada, no se priorizará. Este ha sido el caso de ML multimodal, e IGLUE es nuestro intento de cambiar la escena ", dice Bugliarello.
Basar el entrenamiento en imágenes es estándar en ML. Sin embargo, las imágenes suelen estar "etiquetadas", lo que significa que fragmentos de texto acompañarán a cada imagen, lo que ayudará al proceso de aprendizaje de la máquina. Si bien las etiquetas normalmente están en inglés, IGLUE cubre 20 idiomas tipológicamente diversos, que abarcan 11 familias de idiomas, 9 escrituras y 3 macroáreas geográficas.
Una parte de las imágenes en IGLUE son específicas de la cultura. Estas imágenes fueron obtenidas a través de una campaña de correo. Los investigadores pidieron a voluntarios en países geográficamente diversos que proporcionaran imágenes y textos en su idioma natural y preferiblemente sobre cosas que eran importantes en ese país.
Abrumado por las reacciones positivas
La falta actual de aprendizaje automático multimodal tiene implicaciones prácticas, explica Bugliarello:
"Digamos que tiene una alergia alimentaria y tiene una aplicación que puede decirle si los ingredientes problemáticos están presentes en una comida. Al encontrarse en un restaurante en China, se da cuenta de que el menú está todo en chino pero tiene imágenes. Si su aplicación es buena, puede convertir la imagen en una receta, pero solo si la máquina estuvo expuesta a muestras chinas durante el entrenamiento".
En otras palabras, los que no hablan inglés obtienen una versión más pobre de las soluciones basadas en ML:
"El rendimiento de muchas de las mejores soluciones de ML caerá instantáneamente, ya que quedan expuestas a datos de países de habla no inglesa. Y, en particular, las soluciones de ML pierden conceptos e ideas que no se forman en Europa o América del Norte. Esto es algo que la comunidad de investigación de ML debe abordar", dice Bugliarello.
Afortunadamente, muchos colegas han visto la luz, señala Bugliarello:
"Todo esto comenzó hace unos años cuando escribimos un documento para la conferencia EMNLP (Métodos empíricos en el procesamiento del lenguaje natural). Solo queríamos señalar un problema, pero pronto nos vimos abrumados por el interés y, para nuestra sorpresa, nuestra contribución fue seleccionado como Mejor Artículo Largo. La gente vio claramente el problema y nos animaron a hacer más".
Puede ayudar a las personas con discapacidad visual
A veces, el éxito actual casi se siente como una carga, admite Bugliarello:
"Como universidad pública, tenemos recursos limitados. No podemos abordar todos los aspectos de esta enorme tarea. Aún así, podemos ver que otros grupos se están uniendo. También podemos sentir el interés de las grandes corporaciones tecnológicas. Están fuertemente comprometidas con ML y están comenzando a darse cuenta de cómo el sesgo en inglés puede ser un problema. Obviamente, no están felices de ver que el rendimiento de sus soluciones se reduce significativamente cuando se aplican fuera de los contextos del idioma inglés".
A pesar de los desarrollos positivos, Bugliarello no se deja llevar. Cuando se le pregunta qué tan cerca estamos de lograr un aprendizaje automático imparcial, responde:
"Oh, estamos muy lejos".
Aún así, no se trata solo de igualdad cultural:
"La metodología detrás de IGLUE puede encontrar varias aplicaciones. Por ejemplo, esperamos mejorar las soluciones para los discapacitados visuales. Existen herramientas que ayudan a los discapacitados visuales a seguir la trama de una película u otro tipo de comunicación visual. Estas herramientas actualmente están lejos de ser perfectas , y me gustaría mucho poder mejorarlos. Sin embargo, esto es un poco más en el futuro", dice Bugliarello + Explora más