Crédito:CC0 Dominio público
Los sistemas de inteligencia artificial pueden completar tareas rápidamente, pero eso no significa que siempre lo hagan de manera justa. Si los conjuntos de datos utilizados para entrenar modelos de aprendizaje automático contienen datos sesgados, es probable que el sistema muestre ese mismo sesgo cuando toma decisiones en la práctica.
Por ejemplo, si un conjunto de datos contiene principalmente imágenes de hombres blancos, entonces un modelo de reconocimiento facial entrenado con estos datos puede ser menos preciso para mujeres o personas con diferentes tonos de piel.
Un grupo de investigadores del MIT, en colaboración con investigadores de la Universidad de Harvard y Fujitsu, Ltd., buscó comprender cuándo y cómo un modelo de aprendizaje automático es capaz de superar este tipo de sesgo de conjuntos de datos. Utilizaron un enfoque de la neurociencia para estudiar cómo los datos de entrenamiento afectan si una red neuronal artificial puede aprender a reconocer objetos que no ha visto antes. Una red neuronal es un modelo de aprendizaje automático que imita el cerebro humano en la forma en que contiene capas de nodos interconectados, o "neuronas", que procesan datos.
Los nuevos resultados muestran que la diversidad en los datos de entrenamiento tiene una gran influencia en la capacidad de una red neuronal para superar el sesgo, pero al mismo tiempo la diversidad de conjuntos de datos puede degradar el rendimiento de la red. También muestran que la forma en que se entrena una red neuronal y los tipos específicos de neuronas que surgen durante el proceso de entrenamiento pueden desempeñar un papel importante en la capacidad de superar un conjunto de datos sesgado.
"Una red neuronal puede superar el sesgo del conjunto de datos, lo cual es alentador. Pero la conclusión principal aquí es que debemos tener en cuenta la diversidad de datos. Necesitamos dejar de pensar que si solo recopila una tonelada de datos sin procesar, eso En primer lugar, debemos tener mucho cuidado con la forma en que diseñamos los conjuntos de datos ", dice Xavier Boix, científico investigador del Departamento de Ciencias Cognitivas y del Cerebro (BCS) y el Centro de Cerebros, Mentes y Máquinas (CBMM). ), y autor principal del artículo.
Los coautores incluyen a exestudiantes de posgrado Spandan Madan, un autor correspondiente que actualmente está cursando un doctorado. en Harvard, Timothy Henry, Jamell Dozier, Helen Ho y Nishchal Bhandari; Tomotake Sasaki, un ex científico visitante que ahora es investigador en Fujitsu; Frédo Durand, profesor de ingeniería eléctrica e informática y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial; y Hanspeter Pfister, Profesor An Wang de Informática en la Escuela de Ingeniería y Ciencias Aplicadas de Harvard. La investigación aparece hoy en Nature Machine Intelligence .
Pensando como un neurocientífico
Boix y sus colegas abordaron el problema del sesgo del conjunto de datos pensando como neurocientíficos. En neurociencia, explica Boix, es común usar conjuntos de datos controlados en experimentos, lo que significa un conjunto de datos en el que los investigadores saben tanto como sea posible sobre la información que contiene.
El equipo construyó conjuntos de datos que contenían imágenes de diferentes objetos en diversas poses y controló cuidadosamente las combinaciones para que algunos conjuntos de datos tuvieran más diversidad que otros. En este caso, un conjunto de datos tiene menos diversidad si contiene más imágenes que muestran objetos desde un solo punto de vista. Un conjunto de datos más diverso tenía más imágenes que mostraban objetos desde múltiples puntos de vista. Cada conjunto de datos contenía el mismo número de imágenes.
Los investigadores utilizaron estos conjuntos de datos cuidadosamente construidos para entrenar una red neuronal para la clasificación de imágenes y luego estudiaron qué tan bien podía identificar objetos desde puntos de vista que la red no vio durante el entrenamiento (conocido como una combinación fuera de distribución).
Por ejemplo, si los investigadores están entrenando un modelo para clasificar autos en imágenes, quieren que el modelo aprenda cómo son los diferentes autos. Pero si cada Ford Thunderbird en el conjunto de datos de entrenamiento se muestra desde el frente, cuando al modelo entrenado se le da una imagen de un Ford Thunderbird tomado de lado, puede clasificarlo erróneamente, incluso si se entrenó en millones de fotos de autos.
The researchers found that if the dataset is more diverse—if more images show objects from different viewpoints—the network is better able to generalize to new images or viewpoints. Data diversity is key to overcoming bias, Boix says.
"But it is not like more data diversity is always better; there is a tension here. When the neural network gets better at recognizing new things it hasn't seen, then it will become harder for it to recognize things it has already seen," he says.
Testing training methods
The researchers also studied methods for training the neural network.
In machine learning, it is common to train a network to perform multiple tasks at the same time. The idea is that if a relationship exists between the tasks, the network will learn to perform each one better if it learns them together.
But the researchers found the opposite to be true—a model trained separately for each task was able to overcome bias far better than a model trained for both tasks together.
"The results were really striking. In fact, the first time we did this experiment, we thought it was a bug. It took us several weeks to realize it was a real result because it was so unexpected," he says.
They dove deeper inside the neural networks to understand why this occurs.
They found that neuron specialization seems to play a major role. When the neural network is trained to recognize objects in images, it appears that two types of neurons emerge—one that specializes in recognizing the object category and another that specializes in recognizing the viewpoint.
When the network is trained to perform tasks separately, those specialized neurons are more prominent, Boix explains. But if a network is trained to do both tasks simultaneously, some neurons become diluted and don't specialize for one task. These unspecialized neurons are more likely to get confused, he says.
"But the next question now is, how did these neurons get there? You train the neural network and they emerge from the learning process. No one told the network to include these types of neurons in its architecture. That is the fascinating thing," he says.
That is one area the researchers hope to explore with future work. They want to see if they can force a neural network to develop neurons with this specialization. They also want to apply their approach to more complex tasks, such as objects with complicated textures or varied illuminations.
Boix is encouraged that a neural network can learn to overcome bias, and he is hopeful their work can inspire others to be more thoughtful about the datasets they are using in AI applications.