Crédito:CC0 Public Domain
Cuando tu madre dice tu nombre sabes que es su voz, no importa el volumen, incluso con una mala conexión de teléfono celular. Y cuando veas su cara sabes que es de ella, si está lejos, si la iluminación es escasa, o si estás en una mala llamada de FaceTime. Esta solidez a la variación es un sello distintivo de la percepción humana. Por otra parte, somos susceptibles a las ilusiones:es posible que no podamos distinguir entre sonidos o imágenes que son, De hecho, diferente. Los científicos han explicado muchas de estas ilusiones, pero carecemos de una comprensión completa de las invariancias en nuestros sistemas auditivo y visual.
Las redes neuronales profundas también han realizado tareas de reconocimiento de voz y clasificación de imágenes con una robustez impresionante a las variaciones en los estímulos auditivos o visuales. Pero, ¿las invariancias aprendidas por estos modelos son similares a las invariancias aprendidas por los sistemas perceptivos humanos? Un grupo de investigadores del MIT ha descubierto que son diferentes. Presentaron sus hallazgos ayer en la Conferencia de 2019 sobre sistemas de procesamiento de información neuronal.
Los investigadores hicieron una generalización novedosa de un concepto clásico:"metameros", estímulos físicamente distintos que generan el mismo efecto perceptual. Los ejemplos más famosos de estímulos metameros surgen porque la mayoría de las personas tienen tres tipos diferentes de conos en la retina. que son responsables de la visión del color. El color percibido de cualquier longitud de onda de luz puede coincidir exactamente con una combinación particular de tres luces de diferentes colores, por ejemplo, rojo, verde, y luces azules. Los científicos del siglo XIX infirieron de esta observación que los humanos tenemos tres tipos diferentes de detectores de luz brillante en nuestros ojos. Esta es la base de las pantallas electrónicas en color en todas las pantallas que miramos todos los días. Otro ejemplo en el sistema visual es que cuando fijamos nuestra mirada en un objeto, podemos percibir las escenas visuales circundantes que difieren en la periferia como idénticas. En el dominio auditivo, se puede observar algo análogo. Por ejemplo, el sonido "textural" de dos enjambres de insectos puede ser indistinguible, a pesar de diferir en los detalles acústicos que los componen, porque tienen propiedades estadísticas agregadas similares. En cada caso, los metameros proporcionan información sobre los mecanismos de percepción, y restringir los modelos de los sistemas auditivos o visuales humanos.
En el trabajo actual, los investigadores eligieron al azar imágenes naturales y clips de sonido de palabras habladas de bases de datos estándar, y luego sintetizaron sonidos e imágenes para que las redes neuronales profundas los clasificaran en las mismas clases que sus contrapartes naturales. Es decir, generaron estímulos físicamente distintos que se clasifican de manera idéntica por modelos, en lugar de por los humanos. Esta es una nueva forma de pensar sobre los metamers, generalizar el concepto para intercambiar el papel de los modelos informáticos por los perceptores humanos. Por lo tanto, llamaron a estos estímulos sintetizados "metámeros modelo" de los estímulos naturales emparejados. Luego, los investigadores probaron si los humanos podían identificar las palabras y las imágenes.
"Los participantes escucharon un segmento corto del discurso y tuvieron que identificar de una lista de palabras qué palabra estaba en el medio del clip. Para el audio natural, esta tarea es fácil, pero para muchos de los metamers modelo, los humanos tuvieron dificultades para reconocer el sonido, "explica la primera autora Jenelle Feather, estudiante de posgrado en el Departamento de Ciencias Cerebrales y Cognitivas (BCS) del MIT y miembro del Centro de Cerebros, Mentes y Máquinas (CBMM). Es decir, los humanos no colocarían los estímulos sintéticos en la misma clase que la palabra hablada "pájaro" o la imagen de un pájaro. De hecho, Los metamers del modelo generados para coincidir con las respuestas de las capas más profundas del modelo eran generalmente irreconocibles como palabras o imágenes por sujetos humanos.
Josh McDermott, profesor asociado en BCS e investigador en CBMM, plantea el siguiente caso:"La lógica básica es que si tenemos un buen modelo de percepción humana, decir del reconocimiento de voz, entonces, si elegimos dos sonidos que el modelo dice que son iguales y presentamos estos dos sonidos a un oyente humano, ese humano también debería decir que los dos sonidos son iguales. Si el oyente humano percibe que los estímulos son diferentes, esto es una clara indicación de que las representaciones en nuestro modelo no coinciden con las de la percepción humana ".
Junto a Feather y McDermott en el periódico están Alex Durango, un estudiante de posgrado, y Ray Gonzalez, un asistente de investigación, ambos en BCS.
Existe otro tipo de falla de las redes profundas que ha recibido mucha atención en los medios:los ejemplos adversarios (ver, por ejemplo, "¿Por qué mi clasificador confundió una tortuga con un rifle?"). Estos son estímulos que parecen similares a los humanos pero que están mal clasificados por una red modelo (por diseño, están construidos para ser clasificados erróneamente). Son complementarias a los estímulos generados por el grupo de Feather, que suenan o parecen diferentes para los humanos pero que están diseñados para ser co-clasificados por la red modelo. Las vulnerabilidades de las redes modelo expuestas a ataques adversarios son bien conocidas:el software de reconocimiento facial puede confundir identidades; Es posible que los vehículos automatizados no reconozcan a los peatones.
La importancia de este trabajo radica en mejorar los modelos de percepción más allá de las redes profundas. Aunque los ejemplos de confrontación estándar indican diferencias entre las redes profundas y los sistemas de percepción humana, Los nuevos estímulos generados por el grupo McDermott posiblemente representan un modelo de falla más fundamental:muestran que los ejemplos genéricos de estímulos clasificados como iguales por una red profunda producen percepciones tremendamente diferentes para los humanos.
El equipo también descubrió formas de modificar las redes del modelo para producir metámeros que fueran sonidos e imágenes más plausibles para los humanos. Como dice McDermott, "Esto nos da la esperanza de que eventualmente podamos desarrollar modelos que pasen la prueba del metamer y capturen mejor las invariancias humanas".
"Los metamers de modelos demuestran una falla significativa de las redes neuronales actuales para igualar las invariancias en los sistemas visuales y auditivos humanos, "dice Pluma, "Esperamos que este trabajo proporcione una vara de medición del comportamiento útil para mejorar las representaciones del modelo y crear mejores modelos de los sistemas sensoriales humanos".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.