Los expertos en visión por computadora de la Universidad de Brown enseñan a las computadoras a ver ilusiones ópticas dependientes del contexto, con la esperanza de ayudar a los algoritmos de visión artificial a tener en cuenta el contexto y ser más robustos. Crédito:Serre Lab / Brown University
¿Ese círculo es verde o gris? ¿Las líneas centrales son rectas o inclinadas?
Las ilusiones ópticas pueden ser divertidas de experimentar y debatir, pero comprender cómo los cerebros humanos perciben estos diferentes fenómenos sigue siendo un área activa de investigación científica. Para una clase de ilusiones ópticas, llamados fenómenos contextuales, se sabe que esas percepciones dependen del contexto. Por ejemplo, el color que crea que tiene un círculo central depende del color del anillo circundante. A veces, el color exterior hace que el color interior parezca más similar, como un anillo verde vecino que hace que un anillo azul parezca turquesa, pero a veces el color exterior hace que el color interior parezca menos similar, como un anillo rosa que hace que un círculo gris parezca verdoso.
Un equipo de expertos en visión por computadora de la Universidad de Brown volvió al punto de partida para comprender los mecanismos neuronales de estos fenómenos contextuales. Su estudio fue publicado el 20 de septiembre en Revisión psicológica .
"Existe un consenso cada vez mayor de que las ilusiones ópticas no son un error, sino una característica, "dijo Thomas Serre, un profesor asociado de cognitiva, ciencias lingüísticas y psicológicas en Brown y el autor principal del artículo. "Creo que son una característica. Pueden representar casos extremos para nuestro sistema visual, pero nuestra visión es tan poderosa en la vida cotidiana y en el reconocimiento de objetos ".
Para el estudio, el equipo liderado por Serre, que está afiliado al Instituto Carney de Ciencias del Cerebro de Brown, comenzó con un modelo computacional limitado por datos anatómicos y neurofisiológicos de la corteza visual. El modelo tenía como objetivo capturar cómo las neuronas corticales vecinas se envían mensajes entre sí y ajustan las respuestas de las otras cuando se les presentan estímulos complejos, como ilusiones ópticas contextuales.
Una innovación que el equipo incluyó en su modelo fue un patrón específico de conexiones de retroalimentación hipotéticas entre neuronas, dijo Serre. Estas conexiones de retroalimentación pueden aumentar o disminuir (excitar o inhibir) la respuesta de una neurona central, dependiendo del contexto visual.
Estas conexiones de retroalimentación no están presentes en la mayoría de los algoritmos de aprendizaje profundo. El aprendizaje profundo es un tipo poderoso de inteligencia artificial que puede aprender patrones complejos en los datos, como reconocer imágenes y analizar el habla normal, y depende de múltiples capas de redes neuronales artificiales que trabajan juntas. Sin embargo, la mayoría de los algoritmos de aprendizaje profundo solo incluyen conexiones feedforward entre capas, no las innovadoras conexiones de retroalimentación de Serre entre neuronas dentro de una capa.
Una vez construido el modelo, el equipo le presentó una variedad de ilusiones dependientes del contexto. Los investigadores "ajustaron" la fuerza de las conexiones excitadoras o inhibidoras de retroalimentación para que las neuronas modelo respondieran de una manera consistente con los datos de neurofisiología de la corteza visual de primates.
Luego probaron el modelo en una variedad de ilusiones contextuales y nuevamente encontraron que el modelo percibía las ilusiones como humanos.
Para probar si hicieron que el modelo fuera innecesariamente complejo, lesionaron el modelo, eliminando selectivamente algunas de las conexiones. Cuando al modelo le faltaban algunas de las conexiones, los datos no coincidían con los datos de percepción humana con tanta precisión.
"Nuestro modelo es el modelo más simple que es necesario y suficiente para explicar el comportamiento de la corteza visual con respecto a las ilusiones contextuales, ", Dijo Serre." Este fue realmente un trabajo de neurociencia computacional de libro de texto:comenzamos con un modelo para explicar los datos de neurofisiología y terminamos con predicciones para los datos de psicofísica humana ".
Además de proporcionar una explicación unificadora de cómo los humanos ven una clase de ilusiones ópticas, Serre se basa en este modelo con el objetivo de mejorar la visión artificial.
Algoritmos de visión artificial de última generación, como los que se utilizan para etiquetar rostros o reconocer señales de alto, tiene problemas para ver el contexto, El lo notó. Al incluir conexiones horizontales sintonizadas por ilusiones ópticas dependientes del contexto, espera abordar esta debilidad.
Quizás los programas de aprendizaje profundo visual que tienen en cuenta el contexto sean más difíciles de engañar. Una cierta pegatina, cuando se atasca en una señal de alto, puede engañar a un sistema de visión artificial haciéndole creer que es una señal de límite de velocidad de 65 millas por hora, que es peligroso, Dijo Serre.