Abordar los problemas de sesgo en la inteligencia artificial, científicos informáticos de la Universidad de Princeton y Stanford han propuesto mejoras a ImageNet, una base de datos de más de 14 millones de imágenes. Los investigadores desarrollaron una herramienta que permite a los usuarios especificar y recuperar conjuntos de imágenes de personas equilibradas por edad. expresión de género o color de piel. La animación anterior es una representación conceptual de la herramienta. Crédito:Ryan Rizzuto
Abordar los problemas de sesgo en la inteligencia artificial, Los informáticos de la Universidad de Princeton y Stanford han desarrollado métodos para obtener conjuntos de datos más justos que contienen imágenes de personas. Los investigadores proponen mejoras a ImageNet, una base de datos de más de 14 millones de imágenes que ha jugado un papel clave en el avance de la visión por computadora durante la última década.
ImageNet, que incluye imágenes de objetos y paisajes, así como personas, sirve como fuente de datos de entrenamiento para investigadores que crean algoritmos de aprendizaje automático que clasifican imágenes o reconocen elementos dentro de ellas. La escala sin precedentes de ImageNet requirió la recopilación de imágenes automatizada y la anotación de imágenes de colaboración colectiva. Si bien la comunidad de investigadores rara vez ha utilizado las categorías de personas de la base de datos, El equipo de ImageNet ha estado trabajando para abordar los prejuicios y otras preocupaciones sobre las imágenes que muestran a personas que son consecuencias no deseadas de la construcción de ImageNet.
"La visión por computadora ahora funciona muy bien, lo que significa que se está implementando en todo el lugar en todo tipo de contextos, "dijo la coautora Olga Russakovsky, profesor asistente de informática en Princeton. "Esto significa que ahora es el momento de hablar sobre el tipo de impacto que está teniendo en el mundo y pensar en este tipo de cuestiones de equidad".
En un nuevo periódico el equipo de ImageNet identificó sistemáticamente conceptos no visuales y categorías ofensivas, como caracterizaciones raciales y sexuales, entre las categorías de personas de ImageNet y propuso eliminarlas de la base de datos. Los investigadores también diseñaron una herramienta que permite a los usuarios especificar y recuperar conjuntos de imágenes de personas equilibradas por edad. expresión de género o color de piel, con el objetivo de facilitar algoritmos que clasifiquen de manera más justa los rostros y actividades de las personas en imágenes. Los investigadores presentaron su trabajo el 30 de enero en la Conferencia de Equidad de la Association for Computing Machinery, Rendición de cuentas y transparencia en Barcelona, España.
"Existe una gran necesidad de que los investigadores y los laboratorios con experiencia técnica básica en esto participen en este tipo de conversaciones, ", dijo Russakovsky." Dada la realidad de que necesitamos recopilar los datos a escala, dada la realidad de que se hará con el crowdsourcing porque es la canalización más eficiente y mejor establecida, ¿Cómo podemos hacer eso de una manera más justa, que no caiga en este tipo de escollos previos? El mensaje central de este documento gira en torno a las soluciones constructivas ".
Un grupo de científicos informáticos de Princeton y Stanford lanzó ImageNet en 2009 como un recurso para investigadores y educadores académicos. Liderando el esfuerzo estuvo la ex alumna de Princeton y miembro de la facultad Fei-Fei Li, ahora es profesor de informática en Stanford. Para alentar a los investigadores a construir mejores algoritmos de visión por computadora usando ImageNet, el equipo también creó el Desafío de reconocimiento visual a gran escala de ImageNet. El desafío se centró principalmente en el reconocimiento de objetos utilizando 1, 000 categorías de imágenes, solo tres de los cuales presentaban personas.
Algunos de los problemas de equidad en ImageNet provienen de la canalización utilizada para construir la base de datos. Sus categorías de imágenes provienen de WordNet, una base de datos más antigua de palabras en inglés utilizadas para la investigación del procesamiento del lenguaje natural. Los creadores de ImageNet adoptaron los sustantivos en WordNet, algunos de los cuales, aunque son términos verbales claramente definidos, no se traduce bien a un vocabulario visual. Por ejemplo, los términos que describen la religión o el origen geográfico de una persona pueden recuperar solo los resultados de búsqueda de imágenes más distintivos, potencialmente conduciendo a algoritmos que perpetúan los estereotipos.
Un proyecto de arte reciente llamado ImageNet Roulette atrajo una mayor atención a estas preocupaciones. El proyecto, lanzado en septiembre de 2019 como parte de una exposición de arte sobre sistemas de reconocimiento de imágenes, usó imágenes de personas de ImageNet para entrenar un modelo de inteligencia artificial que clasificaba a las personas en palabras basándose en una imagen enviada. Los usuarios pueden cargar una imagen de ellos mismos y recuperar una etiqueta basada en este modelo. Muchas de las clasificaciones fueron ofensivas o simplemente fuera de base.
La innovación central que permitió a los creadores de ImageNet acumular una base de datos tan grande de imágenes etiquetadas fue el uso de crowdsourcing, específicamente, la plataforma Amazon Mechanical Turk (MTurk), a través del cual se pagaba a los trabajadores para que verificaran las imágenes de los candidatos. Este enfoque, mientras transformador, era imperfecto, dando lugar a algunos sesgos y categorizaciones inapropiadas.
"Cuando pides a las personas que verifiquen las imágenes seleccionando las correctas entre un gran número de candidatos, las personas se sienten presionadas para seleccionar algunas imágenes y esas imágenes tienden a ser las que tienen características distintivas o estereotipadas, "dijo el autor principal Kaiyu Yang, un estudiante de posgrado en ciencias de la computación.
En el estudio, Yang y sus colegas primero filtraron las categorías de personas potencialmente ofensivas o sensibles de ImageNet. Definieron categorías ofensivas como aquellas que contienen blasfemias o difamaciones raciales o de género; categorías sensibles incluidas, por ejemplo, la clasificación de las personas según su orientación sexual o religión. Para anotar las categorías, Reclutaron a 12 estudiantes graduados de diversos orígenes, indicándoles que se equivoquen al etiquetar una categoría como sensible si no están seguros. Esto eliminó 1, 593 categorías:aproximadamente el 54% de las 2, 932 categorías de personas en ImageNet.
Luego, los investigadores recurrieron a los trabajadores de MTurk para calificar la "capacidad de imagen" de las categorías seguras restantes en una escala de uno a cinco. Mantener las categorías con una calificación de capacidad de imagen de cuatro o más dio como resultado solo 158 categorías clasificadas como seguras e imaginables. Incluso este conjunto de categorías altamente filtrado contenía más de 133, 000 imágenes:una gran cantidad de ejemplos para entrenar algoritmos de visión por computadora.
Dentro de estas 158 categorías, los investigadores estudiaron la representación demográfica de las personas en las imágenes para evaluar el nivel de sesgo en ImageNet y diseñar un enfoque para crear conjuntos de datos más justos. El contenido de ImageNet proviene de motores de búsqueda de imágenes como Flickr, y se ha demostrado que los motores de búsqueda en general producen resultados que sobrerrepresentan a los hombres, gente de piel clara, y adultos de entre 18 y 40 años.
"Las personas han descubierto que las distribuciones de datos demográficos en los resultados de búsqueda de imágenes están muy sesgadas, y esta es la razón por la que la distribución en ImageNet también está sesgada, ", dijo Yang." En este artículo tratamos de comprender lo sesgado que es, y también proponer un método para equilibrar la distribución ".
De los atributos protegidos por las leyes antidiscriminatorias de EE. UU., los investigadores consideraron los tres atributos que son imaginables:color de piel, expresión de género y edad. Se pidió a los trabajadores de MTurk que anotaran cada atributo de cada persona en una imagen. Clasificaron el color de la piel como claro, medio u oscuro; y edad como niño (menor de 18 años), adulto de 18 a 40 años, adultos de 40 a 65 años o adultos mayores de 65 años. Las clasificaciones de género incluían hombres, femenino e inseguro:una forma de incluir a personas con diversas expresiones de género, así como anotar imágenes en las que el género no se pueda percibir a partir de pistas visuales (como muchas imágenes de bebés o buceadores).
Un análisis de las anotaciones mostró que, similar a los resultados de búsqueda, El contenido de ImageNet refleja un sesgo considerable. Personas anotadas como de piel oscura, hembras y los adultos mayores de 40 años estaban subrepresentados en la mayoría de las categorías.
Aunque el proceso de anotación incluía controles de calidad y requería que los anotadores llegaran a un consenso, debido a la preocupación por el daño potencial de las anotaciones incorrectas, los investigadores optaron por no publicar anotaciones demográficas para imágenes individuales. En lugar de, diseñaron una herramienta de interfaz web que permite a los usuarios obtener un conjunto de imágenes que están equilibradas demográficamente de una manera que el usuario especifica. Por ejemplo, la colección completa de imágenes de la categoría "programador" puede incluir aproximadamente un 90% de hombres y un 10% de mujeres, mientras que en los Estados Unidos alrededor del 20% de los programadores de computadoras son mujeres. Un investigador podría usar la nueva herramienta para recuperar un conjunto de imágenes de programadores que representen el 80% de hombres y el 20% de mujeres, o incluso una división, dependiendo del propósito del investigador.
"No queremos decir cuál es la forma correcta de equilibrar la demografía, porque no es un problema muy sencillo, ", dijo Yang." La distribución podría ser diferente en diferentes partes del mundo:la distribución de los colores de piel en los EE. UU. es diferente a la de los países de Asia, por ejemplo. Así que dejamos esa pregunta a nuestro usuario, y solo proporcionamos una herramienta para recuperar un subconjunto equilibrado de las imágenes ".
El equipo de ImageNet está trabajando actualmente en actualizaciones técnicas para su hardware y base de datos, además de implementar el filtrado de categorías de personas y la herramienta de reequilibrio desarrollada en esta investigación. ImageNet pronto se volverá a publicar con estas actualizaciones, y con una solicitud de comentarios de la comunidad de investigación en visión por computadora.