Crédito:CC0 Dominio público
El cerebro humano está finamente sintonizado no solo para reconocer sonidos particulares, sino también para determinar de qué dirección provienen. Al comparar las diferencias en los sonidos que llegan al oído derecho e izquierdo, el cerebro puede estimar la ubicación de un perro que ladra, un camión de bomberos que llora o un automóvil que se aproxima.
Los neurocientíficos del MIT ahora han desarrollado un modelo de computadora que también puede realizar esa tarea compleja. El modelo, que consta de varias redes neuronales convolucionales, no solo realiza la tarea tan bien como lo hacen los humanos, sino que también lucha de la misma manera que lo hacen los humanos.
"Ahora tenemos un modelo que puede localizar sonidos en el mundo real", dice Josh McDermott, profesor asociado de ciencias cognitivas y del cerebro y miembro del Instituto McGovern para la Investigación del Cerebro del MIT. "Y cuando tratamos al modelo como un participante experimental humano y simulamos este gran conjunto de experimentos en los que las personas habían probado humanos en el pasado, lo que encontramos una y otra vez es que el modelo recapitula los resultados que se ven en los humanos".
Los hallazgos del nuevo estudio también sugieren que la capacidad de los humanos para percibir la ubicación se adapta a los desafíos específicos de nuestro entorno, dice McDermott, quien también es miembro del Centro de Cerebros, Mentes y Máquinas del MIT.
McDermott es el autor principal del artículo, que aparece hoy en Nature Human Behavior . El autor principal del artículo es el estudiante graduado del MIT Andrew Francl.
Localización de modelos
Cuando escuchamos un sonido como el silbato de un tren, las ondas de sonido llegan a nuestros oídos derecho e izquierdo en momentos e intensidades ligeramente diferentes, según la dirección de la que provenga el sonido. Partes del mesencéfalo están especializadas en comparar estas pequeñas diferencias para ayudar a estimar de qué dirección proviene el sonido, una tarea también conocida como localización.
Esta tarea se vuelve notablemente más difícil en condiciones del mundo real, donde el entorno produce ecos y se escuchan muchos sonidos a la vez.
Los científicos han buscado durante mucho tiempo construir modelos informáticos que puedan realizar el mismo tipo de cálculos que utiliza el cerebro para localizar sonidos. Estos modelos a veces funcionan bien en entornos idealizados sin ruido de fondo, pero nunca en entornos del mundo real, con sus ruidos y ecos.
Para desarrollar un modelo de localización más sofisticado, el equipo del MIT recurrió a las redes neuronales convolucionales. Este tipo de modelado por computadora se ha utilizado ampliamente para modelar el sistema visual humano y, más recientemente, McDermott y otros científicos también han comenzado a aplicarlo a la audición.
Las redes neuronales convolucionales se pueden diseñar con muchas arquitecturas diferentes, por lo que, para ayudarlos a encontrar las que funcionarían mejor para la localización, el equipo del MIT usó una supercomputadora que les permitió entrenar y probar alrededor de 1500 modelos diferentes. Esa búsqueda identificó 10 que parecían los más adecuados para la localización, que los investigadores entrenaron y utilizaron para todos sus estudios posteriores.
Para entrenar a los modelos, los investigadores crearon un mundo virtual en el que pueden controlar el tamaño de la habitación y las propiedades de reflexión de las paredes de la habitación. Todos los sonidos alimentados a los modelos se originaron en algún lugar de una de estas salas virtuales. El conjunto de más de 400 sonidos de entrenamiento incluía voces humanas, sonidos de animales, sonidos de máquinas, como motores de automóviles, y sonidos naturales, como truenos.
Los investigadores también se aseguraron de que el modelo comenzara con la misma información proporcionada por los oídos humanos. El oído externo, o pabellón auricular, tiene muchos pliegues que reflejan el sonido, alterando las frecuencias que ingresan al oído, y estos reflejos varían dependiendo de dónde proviene el sonido. Los investigadores simularon este efecto ejecutando cada sonido a través de una función matemática especializada antes de ingresar al modelo de computadora.
"Esto nos permite darle al modelo el mismo tipo de información que tendría una persona", dice Francl.
Después de entrenar a los modelos, los investigadores los probaron en un entorno real. Colocaron un maniquí con micrófonos en sus oídos en una habitación real y reprodujeron sonidos desde diferentes direcciones, luego introdujeron esas grabaciones en los modelos. Los modelos se desempeñaron de manera muy similar a los humanos cuando se les pidió que localizaran estos sonidos.
"Aunque el modelo fue entrenado en un mundo virtual, cuando lo evaluamos, pudo localizar sonidos en el mundo real", dice Francl.
Patrones similares
Luego, los investigadores sometieron los modelos a una serie de pruebas que los científicos han usado en el pasado para estudiar las habilidades de localización de los humanos.
Además de analizar la diferencia en el tiempo de llegada a los oídos derecho e izquierdo, el cerebro humano también basa sus juicios de ubicación en las diferencias en la intensidad del sonido que llega a cada oído. Estudios previos han demostrado que el éxito de ambas estrategias varía según la frecuencia del sonido entrante. En el nuevo estudio, el equipo del MIT descubrió que los modelos mostraban este mismo patrón de sensibilidad a la frecuencia.
"El modelo parece usar las diferencias de tiempo y nivel entre los dos oídos de la misma manera que lo hacen las personas, de una manera que depende de la frecuencia", dice McDermott.
Los investigadores también demostraron que cuando dificultaban las tareas de localización, al agregar múltiples fuentes de sonido reproducidas al mismo tiempo, el rendimiento de los modelos de computadora disminuía de una manera que imitaba de cerca los patrones de falla humana en las mismas circunstancias.
"A medida que agrega más y más fuentes, obtiene un patrón específico de disminución en la capacidad de los humanos para juzgar con precisión la cantidad de fuentes presentes y su capacidad para localizar esas fuentes", dice Francl. "Los seres humanos parecen estar limitados a localizar unas tres fuentes a la vez, y cuando realizamos la misma prueba en el modelo, observamos un patrón de comportamiento muy similar".
Debido a que los investigadores utilizaron un mundo virtual para entrenar a sus modelos, también pudieron explorar qué sucede cuando su modelo aprendió a localizarse en diferentes tipos de condiciones no naturales. Los investigadores entrenaron un conjunto de modelos en un mundo virtual sin ecos y otro en un mundo donde nunca se escuchaba más de un sonido a la vez. En un tercero, los modelos solo fueron expuestos a sonidos con rangos de frecuencia estrechos, en lugar de sonidos naturales.
Cuando los modelos entrenados en estos mundos antinaturales se evaluaron en la misma batería de pruebas de comportamiento, los modelos se desviaron del comportamiento humano y las formas en que fallaron variaron según el tipo de entorno en el que habían sido entrenados. Estos resultados respaldan la idea. que las capacidades de localización del cerebro humano se adaptan a los entornos en los que evolucionaron los humanos, dicen los investigadores.
Los investigadores ahora están aplicando este tipo de modelado a otros aspectos de la audición, como la percepción del tono y el reconocimiento del habla, y creen que también podría usarse para comprender otros fenómenos cognitivos, como los límites a los que una persona puede prestar atención o recordar. , dice McDermott.