¿Qué tan bien funcionan los métodos de explicación para los modelos de aprendizaje automático?

Crédito:Pixabay/CC0 Dominio público

Imagine un equipo de médicos que utiliza una red neuronal para detectar el cáncer en las imágenes de una mamografía. Incluso si este modelo de aprendizaje automático parece estar funcionando bien, podría estar enfocándose en las características de la imagen que se correlacionan accidentalmente con los tumores, como una marca de agua o una marca de tiempo, en lugar de signos reales de tumores.

Para probar estos modelos, los investigadores utilizan "métodos de atribución de características", técnicas que supuestamente les dicen qué partes de la imagen son las más importantes para la predicción de la red neuronal. Pero, ¿qué pasa si el método de atribución pasa por alto características que son importantes para el modelo? Dado que los investigadores no saben qué características son importantes para empezar, no tienen forma de saber que su método de evaluación no es efectivo.

Para ayudar a resolver este problema, los investigadores del MIT han ideado un proceso para modificar los datos originales para estar seguros de qué características son realmente importantes para el modelo. Luego usan este conjunto de datos modificado para evaluar si los métodos de atribución de funciones pueden identificar correctamente esas funciones importantes.

Descubrieron que incluso los métodos más populares a menudo pasan por alto las características importantes de una imagen, y algunos métodos apenas logran funcionar tan bien como una línea de base aleatoria. Esto podría tener implicaciones importantes, especialmente si las redes neuronales se aplican en situaciones de alto riesgo, como diagnósticos médicos. Si la red no funciona correctamente, y los intentos de detectar tales anomalías tampoco funcionan correctamente, es posible que los expertos humanos no tengan idea de que están siendo engañados por el modelo defectuoso, explica el autor principal Yilun Zhou, estudiante de posgrado en ingeniería eléctrica e informática. en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

"Todos estos métodos se usan mucho, especialmente en algunos escenarios de alto riesgo, como la detección de cáncer a partir de rayos X o tomografías computarizadas. Pero estos métodos de atribución de características podrían estar equivocados en primer lugar. Pueden resaltar algo que no es así. t corresponden a la característica real que el modelo está utilizando para hacer una predicción, lo que descubrimos que suele ser el caso. Si desea utilizar estos métodos de atribución de características para justificar que un modelo funciona correctamente, es mejor que se asegure de que la atribución de características el método en sí está funcionando correctamente en primer lugar", dice.

Zhou escribió el artículo con su compañera estudiante de posgrado de EECS Serena Booth, el investigador de Microsoft Research Marco Tulio Ribeiro y la autora principal Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva en CSAIL.

Enfocándose en las funciones

En la clasificación de imágenes, cada píxel de una imagen es una característica que la red neuronal puede usar para hacer predicciones, por lo que hay literalmente millones de características posibles en las que puede enfocarse. Si los investigadores quieren diseñar un algoritmo para ayudar a los aspirantes a fotógrafos a mejorar, por ejemplo, podrían entrenar un modelo para distinguir las fotos tomadas por fotógrafos profesionales de las tomadas por turistas ocasionales. Este modelo podría usarse para evaluar cuánto se parecen las fotos de aficionados a las profesionales, e incluso proporcionar comentarios específicos sobre la mejora. Los investigadores querrían que este modelo se centrara en la identificación de elementos artísticos en fotografías profesionales durante la formación, como el espacio de color, la composición y el posprocesamiento. Pero sucede que una foto tomada por un profesional probablemente contenga una marca de agua con el nombre del fotógrafo, mientras que pocas fotos de turistas la tienen, por lo que la modelo podría tomar el atajo para encontrar la marca de agua.

"Obviamente, no queremos decirles a los aspirantes a fotógrafos que una marca de agua es todo lo que necesitan para una carrera exitosa, por lo que queremos asegurarnos de que nuestro modelo se centre en las características artísticas en lugar de la presencia de la marca de agua. Es tentador usar la característica métodos de atribución para analizar nuestro modelo, pero al final del día, no hay garantía de que funcionen correctamente, ya que el modelo podría usar características artísticas, la marca de agua o cualquier otra característica", dice Zhou.

"No sabemos cuáles son esas correlaciones espurias en el conjunto de datos. Podría haber tantas cosas diferentes que podrían ser completamente imperceptibles para una persona, como la resolución de una imagen", agrega Booth. "Incluso si no es perceptible para nosotros, es probable que una red neuronal pueda extraer esas características y usarlas para clasificar. Ese es el problema subyacente. No entendemos muy bien nuestros conjuntos de datos, pero también es imposible entender nuestros conjuntos de datos. así de bien."

Los investigadores modificaron el conjunto de datos para debilitar todas las correlaciones entre la imagen original y las etiquetas de datos, lo que garantiza que ninguna de las características originales seguirá siendo importante.

Luego, agregan una nueva característica a la imagen que es tan obvia que la red neuronal tiene que enfocarse en ella para hacer su predicción, como rectángulos brillantes de diferentes colores para diferentes clases de imágenes.

"Podemos afirmar con confianza que cualquier modelo que logre un nivel de confianza realmente alto tiene que centrarse en ese rectángulo de color que colocamos. Entonces podemos ver si todos estos métodos de atribución de características se apresuran a resaltar esa ubicación en lugar de todo lo demás", dice Zhou.

Resultados "especialmente alarmantes"

Aplicaron esta técnica a varios métodos diferentes de atribución de características. Para las clasificaciones de imágenes, estos métodos producen lo que se conoce como un mapa de prominencia, que muestra la concentración de características importantes repartidas por toda la imagen. Por ejemplo, si la red neuronal clasifica imágenes de pájaros, el mapa de prominencia podría mostrar que el 80 % de las características importantes se concentran alrededor del pico del pájaro.

Después de eliminar todas las correlaciones en los datos de la imagen, manipularon las fotos de varias maneras, como desenfocar partes de la imagen, ajustar el brillo o agregar una marca de agua. Si el método de atribución de características funciona correctamente, casi el 100 por ciento de las características importantes deberían estar ubicadas alrededor del área manipulada por los investigadores.

Los resultados no fueron alentadores. Ninguno de los métodos de atribución de características se acercó al objetivo del 100 por ciento, la mayoría apenas alcanzó un nivel de referencia aleatorio del 50 por ciento, y algunos incluso funcionaron peor que la referencia en algunos casos. Por lo tanto, aunque la nueva característica es la única que el modelo podría usar para hacer una predicción, los métodos de atribución de características a veces fallan al detectarla.

"Ninguno de estos métodos parece ser muy confiable, en todos los diferentes tipos de correlaciones espurias. Esto es especialmente alarmante porque, en conjuntos de datos naturales, no sabemos cuál de esas correlaciones espurias podría aplicarse", dice Zhou. "Podría deberse a todo tipo de factores. Pensamos que podíamos confiar en estos métodos para que nos lo dijeran, pero en nuestro experimento, parece realmente difícil confiar en ellos".

Todos los métodos de atribución de características que estudiaron fueron mejores para detectar una anomalía que la ausencia de una anomalía. En otras palabras, estos métodos podrían encontrar una marca de agua más fácilmente de lo que podrían identificar que una imagen no contiene una marca de agua. Entonces, en este caso, sería más difícil para los humanos confiar en un modelo que da una predicción negativa.

El trabajo del equipo muestra que es fundamental probar los métodos de atribución de características antes de aplicarlos a un modelo del mundo real, especialmente en situaciones de alto riesgo.

"Los investigadores y los profesionales pueden emplear técnicas de explicación como métodos de atribución de características para generar la confianza de una persona en un modelo, pero esa confianza no se fundamenta a menos que la técnica de explicación se evalúe primero rigurosamente", dice Shah. "Se puede usar una técnica de explicación para ayudar a calibrar la confianza de una persona en un modelo, pero es igualmente importante calibrar la confianza de una persona en las explicaciones del modelo".

En el futuro, los investigadores quieren usar su procedimiento de evaluación para estudiar características más sutiles o realistas que podrían conducir a correlaciones falsas. Otra área de trabajo que quieren explorar es ayudar a los humanos a comprender los mapas de prominencia para que puedan tomar mejores decisiones basadas en las predicciones de una red neuronal.

Por qué su teléfono 5G preocupa a la industria de las aerolíneas:lo que sabemos sobre el impacto en los viajes, vuelos y más

¿Cuándo debería alguien confiar en las predicciones de un asistente de IA?

Electrónica