Los traductores sexistas en línea reciben un poco de capacitación en sensibilidad de género

Crédito:Aleutie / Shutterstock

Las herramientas de traducción en línea nos han ayudado a aprender nuevos idiomas, comunicarse a través de las fronteras lingüísticas, y ver sitios web extranjeros en nuestra lengua materna. Pero la inteligencia artificial (IA) detrás de ellos está lejos de ser perfecta, a menudo replicando en lugar de rechazar los prejuicios que existen dentro de un idioma o una sociedad.

Tales herramientas son especialmente vulnerables a los estereotipos de género, porque algunos idiomas (como el inglés) no suelen incluir sustantivos de género, mientras que otros (como el alemán) lo hacen. Al traducir del inglés al alemán, las herramientas de traducción tienen que decidir qué género asignar a palabras en inglés como "más limpio". Abrumadoramente, las herramientas se ajustan al estereotipo, optando por la palabra femenina en alemán.

Los sesgos son humanos:son parte de lo que somos. Pero cuando no lo desafían, los prejuicios pueden surgir en forma de actitudes negativas concretas hacia los demás. Ahora, nuestro equipo ha encontrado una manera de volver a capacitar a la inteligencia artificial detrás de las herramientas de traducción, utilizar formación específica para ayudarlo a evitar los estereotipos de género. Nuestro método podría usarse en otros campos de la IA para ayudar a que la tecnología rechace, en lugar de replicar, prejuicios dentro de la sociedad.

Algoritmos sesgados

Para consternación de sus creadores, Los algoritmos de IA a menudo desarrollan rasgos racistas o sexistas. Google Translate ha sido acusado de estereotipos basados en el género, como sus traducciones que presuponen que todos los médicos son hombres y todas las enfermeras son mujeres. Mientras tanto, El generador de lenguaje de IA GPT-3, que escribió un artículo completo para The Guardian en 2020, mostró recientemente que también era sorprendentemente bueno para producir contenido dañino y desinformación.

El húngaro es un idioma de género neutro, no tiene pronombres de género, por lo que Google Translate elige automáticamente el género por usted. Así es como se codifica constantemente el sexismo cotidiano en 2021. Vete a la mierda, Google. pic.twitter.com/EPqkEw5yEQ
- Dora Vargha (@DoraVargha) 20 de marzo de 2021

Estos fallos de la IA no son necesariamente culpa de sus creadores. Académicos y activistas llamaron recientemente la atención sobre el sesgo de género en el Oxford English Dictionary, donde los sinónimos sexistas de "mujer", como "perra" o "sirvienta", muestran cómo incluso una revisión constante, El catálogo de palabras editado académicamente puede contener prejuicios que refuerzan los estereotipos y perpetúan el sexismo cotidiano.

La IA aprende el sesgo porque no se construye en el vacío:aprende a pensar y actuar leyendo, analizar y categorizar datos existentes, como el contenido en el Oxford English Dictionary. En el caso de la traducción AI, Exponemos su algoritmo a miles de millones de palabras de datos textuales y le pedimos que reconozca y aprenda de los patrones que detecta. A este proceso lo llamamos aprendizaje automático, ya lo largo del camino se aprenden patrones de prejuicio, así como los de gramática y sintaxis.

Idealmente, los datos textuales que mostramos AI no contendrán sesgos. Pero existe una tendencia constante en el campo hacia la construcción de sistemas más grandes entrenados en conjuntos de datos en constante crecimiento. Estamos hablando de cientos de miles de millones de palabras. Estos se obtienen de Internet mediante el uso de herramientas de extracción de texto indiscriminadas como Common Crawl y WebText2, que merodean por la web, devorando cada palabra que encuentran.

El gran tamaño de los datos resultantes hace que sea imposible para cualquier ser humano saber realmente lo que contienen. Pero sabemos que parte de ella proviene de plataformas como Reddit, que ha aparecido en los titulares por presentar contenido ofensivo, información falsa o conspirativa en las publicaciones de los usuarios.

Nuevas traducciones

En nuestra investigación, queríamos buscar una forma de contrarrestar el sesgo dentro de los conjuntos de datos textuales extraídos de Internet. Nuestros experimentos utilizaron una parte seleccionada al azar de un corpus inglés-alemán existente (una selección de texto) que originalmente contenía 17.2 millones de pares de oraciones, la mitad en inglés, la mitad en alemán.

Como hemos destacado, El alemán tiene formas de género para sustantivos (doctor puede ser "der Arzt" para masculino, "die Ärztin" para mujer) donde en inglés no generamos estas formas sustantivas (con algunas excepciones, ellos mismos contenciosos, como "actor" y "actriz").

Nuestro análisis de estos datos reveló claros desequilibrios específicos de género. Por ejemplo, encontramos que la forma masculina de ingeniero en alemán (der Ingenieur) era 75 veces más común que su contraparte femenina (die Ingenieurin). Una herramienta de traducción entrenada en estos datos inevitablemente replicará este sesgo, traduciendo "ingeniero" al masculino "der Ingenieur". Entonces, ¿qué se puede hacer para evitar o mitigar esto?

Superar el sesgo

Una respuesta aparentemente sencilla es "equilibrar" el corpus antes de pedirle a las computadoras que aprendan de él. Quizás, por ejemplo, agregar más ingenieras al corpus evitaría que un sistema de traducción asumiera que todos los ingenieros son hombres.

Desafortunadamente, hay dificultades con este enfoque. Las herramientas de traducción se entrenan durante días con miles de millones de palabras. Volver a entrenarlos modificando el género de las palabras es posible, pero es ineficiente caro y complicado. Ajustar el género en idiomas como el alemán es especialmente desafiante porque, para que tenga sentido gramatical, Es posible que sea necesario cambiar varias palabras en una oración para reflejar el cambio de género.

En lugar de este laborioso reequilibrio de género, decidimos reentrenar los sistemas de traducción existentes con lecciones específicas. Cuando detectamos un sesgo en las herramientas existentes, decidimos volver a capacitarlos en nuevos, conjuntos de datos más pequeños, algo así como una tarde de capacitación en sensibilidad de género en el trabajo.

Este enfoque requiere una fracción del tiempo y los recursos necesarios para entrenar modelos desde cero. Pudimos usar solo unos pocos cientos de ejemplos de traducción seleccionados, en lugar de millones, para ajustar el comportamiento de la IA de traducción de manera específica. Al probar profesiones de género en la traducción, como habíamos hecho con los "ingenieros", las mejoras de precisión después de la adaptación fueron aproximadamente nueve veces mayores que con el enfoque de reentrenamiento "equilibrado".

En nuestra investigación, Queríamos mostrar que abordar los sesgos ocultos en grandes conjuntos de datos no tiene por qué significar un laborioso ajuste de millones de ejemplos de capacitación. una tarea que corre el riesgo de ser descartada como imposible. En lugar de, el sesgo de los datos puede ser dirigido y desaprendido, una lección que otros investigadores de IA pueden aplicar a su propio trabajo.

Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.