Los ingenieros traducen las señales cerebrales directamente en el habla

Crédito:CC0 Public Domain

En una ciencia por primera vez, Los neuroingenieros de Columbia han creado un sistema que traduce el pensamiento en inteligible, habla reconocible. Al monitorear la actividad cerebral de alguien, la tecnología puede reconstruir las palabras que una persona escucha con una claridad sin precedentes. Este avance que aprovecha el poder de los sintetizadores de voz y la inteligencia artificial, podría dar lugar a nuevas formas para que las computadoras se comuniquen directamente con el cerebro. También sienta las bases para ayudar a las personas que no pueden hablar, como aquellos que viven con esclerosis lateral amiotrófica (ELA) o se recuperan de un accidente cerebrovascular, recuperar su capacidad para comunicarse con el mundo exterior.

Estos hallazgos fueron publicados hoy en Informes científicos .

"Nuestras voces nos ayudan a conectarnos con nuestros amigos, la familia y el mundo que nos rodea, es por eso que perder el poder de la voz debido a una lesión o enfermedad es tan devastador, "dijo Nima Mesgarani, Doctor., autor principal del artículo e investigador principal del Mortimer B. Zuckerman Mind Brain Behavior Institute de la Universidad de Columbia. "Con el estudio de hoy, tenemos una forma potencial de restaurar ese poder. Hemos demostrado que con la tecnología adecuada, Los pensamientos de estas personas pueden ser decodificados y comprendidos por cualquier oyente ".

Décadas de investigación han demostrado que cuando las personas hablan, o incluso imaginan hablar, aparecen patrones de actividad reveladores en su cerebro. Un patrón de señales distintivo (pero reconocible) también surge cuando escuchamos a alguien hablar, o imagina escuchar. Expertos tratando de grabar y decodificar estos patrones, vea un futuro en el que los pensamientos no tienen por qué permanecer ocultos dentro del cerebro, sino que pueden traducirse en un discurso verbal a voluntad.

Pero lograr esta hazaña ha demostrado ser un desafío. Los primeros esfuerzos para decodificar las señales cerebrales del Dr. Mesgarani y otros se centraron en modelos informáticos simples que analizaban espectrogramas, que son representaciones visuales de frecuencias de sonido.

Pero debido a que este enfoque no ha logrado producir nada parecido al habla inteligible, El equipo del Dr. Mesgarani se volvió en cambio a un codificador de voz, un algoritmo informático que puede sintetizar el habla después de haber sido entrenado en grabaciones de personas hablando.

"Esta es la misma tecnología utilizada por Amazon Echo y Apple Siri para dar respuestas verbales a nuestras preguntas, "dijo el Dr. Mesgarani, quien también es profesor asociado de ingeniería eléctrica en la Escuela de Ingeniería y Ciencias Aplicadas de la Fundación Fu de Columbia.

Una representación de los primeros enfoques para reconstruir el habla, que utilizan modelos lineales y espectrogramas. Crédito:Nima Mesgarani / Instituto Zuckerman de Columbia

Para enseñarle al vocoder a interpretar la actividad cerebral, El Dr. Mesgarani se asoció con Ashesh Dinesh Mehta, MARYLAND, Doctor., neurocirujano en Northwell Health Physician Partners Neuroscience Institute y coautor del artículo de hoy. El Dr. Mehta trata a pacientes con epilepsia, algunos de los cuales deben someterse a cirugías regulares.

"Trabajando con el Dr. Mehta, les pedimos a los pacientes con epilepsia que ya se sometieron a una cirugía cerebral que escucharan las oraciones pronunciadas por diferentes personas, mientras medíamos patrones de actividad cerebral, ", dijo el Dr. Mesgarani." Estos patrones neuronales entrenaron al vocoder ".

Próximo, los investigadores pidieron a esos mismos pacientes que escucharan a los hablantes recitando dígitos entre 0 y 9, mientras se registran las señales cerebrales que luego se pueden ejecutar a través del codificador de voz. El sonido producido por el codificador de voz en respuesta a esas señales fue analizado y limpiado por redes neuronales, un tipo de inteligencia artificial que imita la estructura de las neuronas en el cerebro biológico.

Representación del nuevo enfoque del Dr. Mesgarani que utiliza un codificador de voz y una red neuronal profunda para reconstruir el habla. Crédito:Nima Mesgarani / Instituto Zuckerman de Columbia

El resultado final fue una voz robótica que recitaba una secuencia de números. Para probar la precisión de la grabación, El Dr. Mesgarani y su equipo encargaron a las personas que escucharan la grabación e informaran lo que escucharon.

"Descubrimos que las personas podían comprender y repetir los sonidos aproximadamente el 75% del tiempo, que está muy por encima y más allá de cualquier intento anterior, ", dijo el Dr. Mesgarani. La mejora en la inteligibilidad fue especialmente evidente cuando se compararon las nuevas grabaciones con las anteriores, intentos basados en espectrogramas. "El codificador de voz sensible y las poderosas redes neuronales representaron los sonidos que los pacientes habían escuchado originalmente con una precisión sorprendente".

El Dr. Mesgarani y su equipo planean probar a continuación palabras y oraciones más complicadas, y quieren ejecutar las mismas pruebas en las señales cerebrales emitidas cuando una persona habla o se imagina hablando. Por último, esperan que su sistema pueda ser parte de un implante, similares a los que usan algunos pacientes con epilepsia, que traduce los pensamientos del usuario directamente en palabras.

"En este escenario, si el usuario piensa 'necesito un vaso de agua, 'nuestro sistema podría tomar las señales cerebrales generadas por ese pensamiento, y convertirlos en sintetizados, discurso verbal, ", dijo el Dr. Mesgarani." Esto cambiaría las reglas del juego. Le daría a cualquiera que haya perdido la capacidad de hablar, ya sea por lesión o enfermedad, la oportunidad renovada de conectarse con el mundo que los rodea ".

This paper is titled "Towards reconstructing intelligible speech from the human auditory cortex."

Los nuevos métodos de análisis facilitan la evaluación de datos de ingeniería complejos

Windows Lite:los susurros se centran en optimizar, abandono y comodidad similar a Windows 7

Electrónica