La IA podría ser una fuerza para el bien, pero actualmente se dirige hacia un futuro más oscuro

Crédito:CC0 Public Domain

La Inteligencia Artificial (IA) ya está reconfigurando el mundo de manera notoria. Los datos impulsan nuestro ecosistema digital global, y las tecnologías de inteligencia artificial revelan patrones en los datos. Teléfonos inteligentes hogares inteligentes, y las ciudades inteligentes influyen en cómo vivimos e interactuamos, y los sistemas de inteligencia artificial participan cada vez más en las decisiones de contratación, diagnósticos médicos, y veredictos judiciales. Si este escenario es utópico o distópico depende de su perspectiva.

Los riesgos potenciales de la IA se enumeran repetidamente. Los robots asesinos y el desempleo masivo son preocupaciones comunes, mientras que algunas personas incluso temen la extinción humana. Las predicciones más optimistas afirman que la IA agregará 15 billones de dólares a la economía mundial para 2030, y eventualmente llevarnos a algún tipo de nirvana social.

Sin duda, debemos considerar el impacto que estas tecnologías están teniendo en nuestras sociedades. Una preocupación importante es que los sistemas de IA refuerzan los prejuicios sociales existentes, con un efecto perjudicial. Varios ejemplos notorios de este fenómeno han recibido una atención generalizada:los sistemas de traducción automática automatizados de última generación que producen resultados sexistas, y sistemas de reconocimiento de imágenes que clasifican a los negros como gorilas.

Estos problemas surgen porque dichos sistemas utilizan modelos matemáticos (como redes neuronales) para identificar patrones en grandes conjuntos de datos de entrenamiento. Si esos datos están muy sesgados de varias maneras, entonces sus sesgos inherentes serán inevitablemente aprendidos y reproducidos por los sistemas entrenados. Las tecnologías autónomas sesgadas son problemáticas ya que pueden marginar potencialmente a grupos como las mujeres, minorías étnicas, o los ancianos, agravando así los desequilibrios sociales existentes.

Si los sistemas de inteligencia artificial están capacitados en datos de arrestos policiales, por ejemplo, entonces, cualquier sesgo consciente o inconsciente que se manifieste en los patrones existentes de arrestos sería replicado por un sistema de inteligencia artificial de "vigilancia predictiva" entrenado en esos datos. Reconociendo las graves implicaciones de esto, Varias organizaciones autorizadas han advertido recientemente que todos los sistemas de IA deben estar capacitados con datos no sesgados. Las directrices éticas publicadas a principios de 2019 por la Comisión Europea ofrecían la siguiente recomendación:

Cuando se recopilan datos, puede contener sesgos construidos socialmente, inexactitudes, errores y equivocaciones. Esto debe abordarse antes de entrenar con cualquier conjunto de datos.

Tratar con datos sesgados

Todo esto suena bastante sensato. Pero desafortunadamente, A veces es simplemente imposible asegurarse de que ciertos conjuntos de datos sean imparciales antes de la capacitación. Un ejemplo concreto debería aclarar esto.

Todos los sistemas de traducción automática de última generación (como Google Translate) están entrenados en pares de oraciones. Un sistema inglés-francés utiliza datos que asocian oraciones en inglés ("she is tall") con oraciones equivalentes en francés (" elle est grande "). Puede haber 500 m de emparejamientos de este tipo en un conjunto determinado de datos de entrenamiento, y por lo tanto mil millones de sentencias separadas en total. Todos los sesgos relacionados con el género deberían eliminarse de un conjunto de datos de este tipo si quisiéramos evitar que el sistema resultante produzca resultados sexistas como los siguientes:

Aporte :Las mujeres comenzaron la reunión. Trabajaron de manera eficiente.
Producción : Les femmes ont commencé la réunion. Se trata de una eficacia inigualable.

La traducción al francés se generó con Google Translate el 11 de octubre de 2019, y es incorrecto:" Ils "es el pronombre de sujeto plural masculino en francés, y aparece aquí a pesar de que el contexto indica claramente que se hace referencia a las mujeres. Este es un ejemplo clásico de la preferencia masculina por defecto por parte del sistema automatizado debido a sesgos en los datos de entrenamiento.

En general, El 70% de los pronombres de género en los conjuntos de datos de traducción son masculinos, mientras que el 30% son femeninas. Esto se debe a que los textos utilizados para tales fines tienden a referirse más a hombres que a mujeres. Para evitar que los sistemas de traducción reproduzcan estos sesgos existentes, los pares de oraciones específicas tendrían que eliminarse de los datos, de modo que los pronombres masculinos y femeninos ocurrieron 50% / 50% tanto en el lado inglés como en el francés. Esto evitaría que el sistema asigne mayores probabilidades a los pronombres masculinos.

Los sustantivos y adjetivos también deberían estar equilibrados al 50% / 50%, por supuesto, ya que pueden indicar el género en ambos idiomas ("actor", "Actriz"; "neuf", "neuve") - y así sucesivamente. Pero este muestreo descendente drástico necesariamente reduciría considerablemente los datos de entrenamiento disponibles, disminuyendo así la calidad de las traducciones producidas.

E incluso si el subconjunto de datos resultante estuviera completamente equilibrado por género, todavía estaría sesgado en todo tipo de otras formas (como el origen étnico o la edad). En verdad, sería difícil eliminar todos estos sesgos completamente . Si una persona dedica solo cinco segundos a leer cada uno de los mil millones de oraciones en los datos de entrenamiento, se necesitarían 159 años para revisarlos todos, y eso suponiendo la voluntad de trabajar todo el día y la noche, sin pausas para el almuerzo.

¿Una alternativa?

Por lo tanto, no es realista exigir que todos los conjuntos de datos de entrenamiento sean imparciales antes de que se creen los sistemas de IA. Estos requisitos de alto nivel generalmente asumen que "IA" denota un grupo homogéneo de modelos matemáticos y enfoques algorítmicos.

En realidad, diferentes tareas de IA requieren tipos de sistemas muy diferentes. Y restar importancia al alcance total de esta diversidad disfraza los problemas reales que plantean (digamos) datos de entrenamiento profundamente sesgados. Esto es lamentable ya que significa que se descuidan otras soluciones al problema del sesgo de datos.

Por ejemplo, los sesgos en un sistema de traducción automática entrenado pueden reducirse sustancialmente si el sistema se adapta después de haber sido entrenado en el más grande, inevitablemente sesgado, conjunto de datos. Esto se puede hacer con una herramienta mucho más pequeña, menos sesgado, conjunto de datos. La mayoría de los datos pueden estar muy sesgados, por lo tanto, pero el sistema entrenado en él no tiene por qué serlo. Desafortunadamente, Estas técnicas rara vez son discutidas por aquellos encargados de desarrollar directrices y marcos legislativos para la investigación de la IA.

Si los sistemas de IA simplemente refuerzan los desequilibrios sociales existentes, luego, en lugar de facilitar, obstruyen el cambio social positivo. Si las tecnologías de IA que usamos cada vez más a diario fueran mucho menos sesgadas que nosotros, entonces podrían ayudarnos a reconocer y enfrentar nuestros propios prejuicios acechantes.

Seguramente esto es en lo que deberíamos estar trabajando. Y, por lo tanto, los desarrolladores de IA deben pensar mucho más detenidamente sobre las consecuencias sociales de los sistemas que construyen. mientras que aquellos que escriben sobre IA deben comprender con más detalle cómo se diseñan y construyen realmente los sistemas de IA. Porque si realmente nos estamos acercando a un idilio tecnológico o un apocalipsis, lo primero sería preferible.

Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.