• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • El sistema informático transcribe las palabras que los usuarios hablan en silencio

    Arnav Kapur, investigador del grupo Fluid Interfaces del MIT Media Lab, demuestra el proyecto AlterEgo. Crédito:Lorrie Lejeune / MIT

    Los investigadores del MIT han desarrollado una interfaz de computadora que puede transcribir palabras que el usuario verbaliza internamente pero que en realidad no habla en voz alta.

    El sistema consta de un dispositivo portátil y un sistema informático asociado. Los electrodos del dispositivo captan señales neuromusculares en la mandíbula y la cara que se activan mediante verbalizaciones internas (decir palabras "en la cabeza"), pero que son indetectables para el ojo humano. Las señales se envían a un sistema de aprendizaje automático que ha sido entrenado para correlacionar señales particulares con palabras particulares.

    El dispositivo también incluye un par de auriculares de conducción ósea, que transmiten vibraciones a través de los huesos de la cara al oído interno. Porque no obstruyen el canal auditivo, los auriculares permiten que el sistema transmita información al usuario sin interrumpir la conversación o sin interferir con la experiencia auditiva del usuario.

    Por lo tanto, el dispositivo es parte de un completo sistema de computación silenciosa que permite al usuario plantear y recibir respuestas indetectables a problemas computacionales difíciles. En uno de los experimentos de los investigadores, por ejemplo, los sujetos utilizaron el sistema para informar silenciosamente los movimientos de los oponentes en una partida de ajedrez y recibir igualmente silenciosamente las respuestas recomendadas por la computadora.

    "La motivación para esto fue construir un dispositivo de inteligencia artificial, un dispositivo de aumento de inteligencia, "dice Arnav Kapur, un estudiante de posgrado en el MIT Media Lab, quien lideró el desarrollo del nuevo sistema. "Nuestra idea era:¿Podríamos tener una plataforma informática más interna, que fusiona humanos y máquinas de alguna manera y que se siente como una extensión interna de nuestra propia cognición? "

    "Básicamente, no podemos vivir sin nuestros teléfonos móviles, nuestros dispositivos digitales, "dice Pattie Maes, profesor de artes y ciencias de los medios de comunicación y asesor de tesis de Kapur. "Pero en el momento, el uso de esos dispositivos es muy perjudicial. Si quiero buscar algo que sea relevante para una conversación que estoy teniendo, Tengo que encontrar mi teléfono y escribir el código de acceso y abrir una aplicación y escribir una palabra clave de búsqueda, y todo el asunto requiere que desvíe completamente la atención de mi entorno y las personas con las que estoy al teléfono en sí. Entonces, Mis alumnos y yo hemos estado experimentando durante mucho tiempo con nuevos factores de forma y nuevos tipos de experiencia que permiten a las personas seguir beneficiándose de todos los maravillosos conocimientos y servicios que estos dispositivos nos brindan. pero hazlo de una manera que les permita permanecer en el presente ".

    Los investigadores describen su dispositivo en un documento que presentaron en la conferencia ACM Intelligent User Interface de la Association for Computing Machinery. Kapur es el primer autor del artículo, Maes es el autor principal, y se les une Shreyas Kapur, una licenciatura en ingeniería eléctrica e informática.

    Señales sutiles

    La idea de que las verbalizaciones internas tienen correlatos físicos ha existido desde el siglo XIX, y se investigó seriamente en la década de 1950. Uno de los objetivos del movimiento de lectura rápida de la década de 1960 fue eliminar la verbalización interna, o "subvocalización, "como se le conoce.

    Pero la subvocalización como interfaz de computadora está en gran parte inexplorada. El primer paso de los investigadores fue determinar qué ubicaciones en la cara son las fuentes de las señales neuromusculares más confiables. Así que llevaron a cabo experimentos en los que se pidió a los mismos sujetos que subvocalizaran la misma serie de palabras cuatro veces, con una serie de 16 electrodos en diferentes ubicaciones faciales cada vez.

    Crédito:Instituto de Tecnología de Massachusetts

    Los investigadores escribieron un código para analizar los datos resultantes y encontraron que las señales de siete ubicaciones particulares de electrodos podían distinguir constantemente palabras subvocalizadas. En el documento de la conferencia, los investigadores informan de un prototipo de una interfaz de voz silenciosa portátil, que se envuelve alrededor de la parte posterior del cuello como un auricular de teléfono y tiene apéndices curvos en forma de tentáculo que tocan la cara en siete lugares a cada lado de la boca y a lo largo de las mandíbulas.

    Pero en experimentos actuales, los investigadores están obteniendo resultados comparables utilizando solo cuatro electrodos a lo largo de una mandíbula, lo que debería conducir a un dispositivo portátil menos molesto.

    Una vez que hayan seleccionado las ubicaciones de los electrodos, los investigadores comenzaron a recopilar datos sobre algunas tareas computacionales con vocabularios limitados, alrededor de 20 palabras cada una. Uno era aritmética, en el que el usuario subvocalizaría grandes problemas de suma o multiplicación; otra fue la aplicación de ajedrez, en el que el usuario informaría movimientos utilizando el sistema de numeración de ajedrez estándar.

    Luego, para cada aplicación, utilizaron una red neuronal para encontrar correlaciones entre señales neuromusculares particulares y palabras particulares. Como la mayoría de las redes neuronales, el que utilizaron los investigadores está organizado en capas de nodos de procesamiento simples, cada uno de los cuales está conectado a varios nodos en las capas superior e inferior. Los datos se introducen en la capa inferior, cuyos nodos lo procesan y lo pasan a la siguiente capa, cuyos nodos lo procesan y lo pasan a la siguiente capa, etcétera. La salida de los rendimientos de la capa final es el resultado de alguna tarea de clasificación.

    La configuración básica del sistema de los investigadores incluye una red neuronal entrenada para identificar palabras subvocalizadas a partir de señales neuromusculares, pero se puede personalizar para un usuario en particular a través de un proceso que reentrena solo las dos últimas capas.

    Cuestiones prácticas

    Usando el prototipo de interfaz portátil, los investigadores llevaron a cabo un estudio de usabilidad en el que 10 sujetos pasaron aproximadamente 15 minutos cada uno personalizando la aplicación aritmética a su propia neurofisiología, luego pasó otros 90 minutos usándolo para ejecutar cálculos. En ese estudio, el sistema tenía una precisión de transcripción promedio de alrededor del 92 por ciento.

    Pero, Kapur dice:el rendimiento del sistema debería mejorar con más datos de entrenamiento, que podría recogerse durante su uso ordinario. Aunque no ha analizado los números, estima que el sistema mejor entrenado que usa para las demostraciones tiene una tasa de precisión más alta que la reportada en el estudio de usabilidad.

    En el trabajo en curso, los investigadores están recopilando una gran cantidad de datos sobre conversaciones más elaboradas, con la esperanza de crear aplicaciones con vocabularios mucho más amplios. "Estamos en medio de la recopilación de datos, y los resultados se ven bien "Dice Kapur." Creo que algún día lograremos una conversación completa ".

    "Creo que están subestimando un poco lo que creo que es un potencial real para el trabajo, "dice Thad Starner, profesor de la Facultad de Computación de Georgia Tech. "Igual que, decir, controlando los aviones en la pista del aeropuerto Hartsfield aquí en Atlanta. Tienes ruido de chorro a tu alrededor Lleva puestos estos grandes protectores para los oídos. ¿No sería fantástico poder comunicarse con la voz en un entorno en el que normalmente no podría hacerlo? Puede imaginar todas estas situaciones en las que tiene un entorno con mucho ruido, como la cabina de vuelo de un portaaviones, o incluso lugares con mucha maquinaria, como una planta de energía o una imprenta. Este es un sistema que tendría sentido, especialmente porque a menudo en este tipo de situaciones, las personas ya están usando equipo de protección. Por ejemplo, si eres piloto de combate, o si eres bombero, ya estás usando estas máscaras ".

    "La otra cosa en la que esto es extremadamente útil son las operaciones especiales, "Agrega Starner." Hay muchos lugares donde no hay un ambiente ruidoso sino un ambiente silencioso. Un montón de tiempo, la gente de operaciones especiales tiene gestos con las manos, pero no siempre puedes verlos. ¿No sería genial tener un discurso silencioso para la comunicación entre estas personas? El último son las personas que tienen discapacidades en las que no pueden vocalizar normalmente. Por ejemplo, Roger Ebert ya no podía hablar porque perdió la mandíbula debido al cáncer. ¿Podría hacer este tipo de discurso silencioso y luego tener un sintetizador que dijera las palabras? "

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com