Cinco muestras representativas para cada clase (fila) en el conjunto de datos CIFAR-10. Para cada clase, estas muestras se obtienen con modelos generativos entrenados tras eliminar del conjunto de entrenamiento el 40% de las imágenes de esa clase específica. Crédito:IBM
Si quieres enseñarle a un niño cómo es un elefante, tienes un número infinito de opciones. Tome una foto de National Geographic, un peluche de Dumbo, o un llavero de elefante; enséñaselo al niño; y la próxima vez que vea un objeto que parezca un elefante, probablemente señalará y dirá la palabra.
Enseñar a la IA cómo se ve un elefante es un poco diferente. Para entrenar un algoritmo de aprendizaje automático, probablemente necesitará miles de imágenes de elefantes usando diferentes perspectivas, como cabeza, cola, y perfil. Pero entonces, incluso después de ingerir miles de fotos, si conecta su algoritmo a una cámara y le muestra un llavero de elefante rosa, probablemente no lo reconocerá como un elefante.
Esta es una forma de sesgo de datos, ya menudo afecta negativamente la precisión de los clasificadores de aprendizaje profundo. Para corregir este sesgo, usando el mismo ejemplo, necesitaríamos al menos 50-100 imágenes de elefantes rosas, lo que podría ser problemático ya que los elefantes rosados son "raros".
Este es un desafío conocido en las comunidades de aprendizaje automático, y si son elefantes rosas o señales de tráfico, Los pequeños conjuntos de datos presentan grandes desafíos para los científicos de IA.
Restaurar el equilibrio para entrenar la IA
Desde principios de este año, mis colegas y yo de IBM Research en Zurich ofrecemos una solución. Se llama BAGAN, o equilibrar las redes generativas de confrontación, y puede generar imágenes completamente nuevas, es decir, de elefantes rosados, para restablecer el equilibrio para entrenar la IA.
Cinco muestras representativas generadas para las tres clases mayoritarias más representadas en el conjunto de datos GT-SRB. Crédito:IBM
Ver es creer
En el documento informamos sobre el uso de BAGAN en el índice de referencia de reconocimiento de señales de tráfico alemán, así como en MNIST y CIFAR-10, y en comparación con GAN de última generación, la metodología supera a todos ellos en términos de variedad y calidad de las imágenes generadas cuando el conjunto de datos de entrenamiento está desequilibrado. Sucesivamente, esto conduce a una mayor precisión de los clasificadores finales entrenados en el conjunto de datos aumentado.
Cinco muestras representativas generadas para las tres clases minoritarias menos representadas en el conjunto de datos GT-SRB. Crédito:IBM
Esta historia se vuelve a publicar por cortesía de IBM Research. Lea la historia original aquí.