Usando IA, las personas ciegas pueden encontrar rostros familiares en una habitación

Theo, izquierda, un niño ciego de 12 años, interactúa con los ingenieros senior de desarrollo de software de investigación de Microsoft, Tim Regan, medio, y Martin Grayson, Derecha, durante la prueba de usuario del sistema Project Tokyo. Crédito:Jonathan Banks

Theo, un niño ciego de 12 años, está sentado a una mesa en una cocina llena de gente en un día gris y lluvioso de mediados de diciembre. Una diadema que alberga cámaras, un sensor de profundidad y parlantes rodean su cabello castaño arenoso. Gira la cabeza hacia la izquierda y hacia la derecha hasta que la cámara en la parte delantera de la diadema apunta a la nariz de una persona que está al otro lado de un mostrador.

Theo escucha un sonido de golpe seguido del nombre "Martin" a través de los altavoces de la diadema, que se colocan sobre sus orejas.

"Me tomó como cinco segundos llegar a ti, Martín, "Theo dice, su cabeza y cuerpo fijos en la dirección de Martin Grayson, ingeniero senior de desarrollo de software de investigación en el laboratorio de investigación de Microsoft en Cambridge. Grayson está de pie junto a un cofre negro hasta la rodilla que contiene el hardware informático necesario para ejecutar los modelos de aprendizaje automático que alimentan el sistema prototipo que Theo usó para reconocerlo.

Elin, La madre de Theo, que está de pie contra una pared en el lado opuesto de Theo, dice, "Me encanta la forma en que te diste la vuelta para encontrarlo. Es tan agradable".

Cuando Theo comienza a volverse para mirar a su madre, los altavoces suenan otro golpe y el nombre "Tim".

"Tim, Ahí tienes, "dice Theo con deleite mientras su mirada se posa en Tim Regan, otro ingeniero senior de desarrollo de software de investigación en el laboratorio, quien tomó a Theo bajo su protección para enseñarle habilidades avanzadas de codificación informática. Theo y su madre estaban en la casa de Regan para una lección de codificación bimensual. Se conocieron mientras trabajaban en un proyecto de investigación que condujo al desarrollo de Code Jumper, un lenguaje de programación físico que incluye a niños con todos los rangos de visión.

Theo es ahora uno de varios miembros de la comunidad de ciegos y personas con baja visión que están trabajando con Regan, Grayson, la investigadora Cecily Morrison y su equipo en el Proyecto Tokio, un esfuerzo de investigación de múltiples frentes para crear tecnología de agente personal inteligente que utiliza inteligencia artificial para ampliar las capacidades existentes de las personas.

Para Theo, eso significa herramientas para reconocer quién está a su alrededor.

"Es muy emocionante poder averiguar dónde están las personas en mi entorno, "Dijo Theo." No solo quién elige hablar, pero toda la gente que calla que puedes ver por su rostro, pero no puedo ".

Pero ultimamente, señaló Morrison, Project Tokyo es un esfuerzo de investigación con el objetivo a largo plazo de demostrar cómo construir agentes personales inteligentes que amplíen las capacidades de todos los usuarios. En lugar de construir sistemas de un extremo a otro que puedan realizar tareas específicas, Ella ve el futuro de la IA como un conjunto de recursos que la gente usa de la forma que crea conveniente.

"De repente, no tenemos que decir, 'Oye, eres ciego y acabo de hacer que esto sea accesible para ti'. Decimos, 'Oye, tú eres tú y acabo de construir un sistema que funciona para ti, '", dijo." No necesito saber nada sobre ti. No necesito una etiqueta en ti. Puedo hacer algo que sea adecuado para ti porque tengo un sistema que puedes tomar y adaptar a ti mismo ".

Juegos Paralímpicos en Brasil

Project Tokyo nació de un desafío, a principios de 2016, de los líderes sénior de Microsoft para crear sistemas de inteligencia artificial que irían más allá de completar tareas como buscar puntajes deportivos y pronósticos meteorológicos o identificar objetos. Morrison dijo que la creación de herramientas para personas ciegas y con baja visión era algo natural para el proyecto. porque las personas con discapacidad a menudo son las primeras en adoptar nuevas tecnologías.

"No se trata de decir, 'Construyamos algo para personas ciegas, '", Dijo Morrison." Estamos trabajando con personas ciegas para ayudarnos a imaginar el futuro, y ese futuro se trata de nuevas experiencias con la IA ".

Morrison y su colega Ed Cutrell, investigador principal senior en el laboratorio de investigación de Microsoft en Redmond, Washington, fueron seleccionados para liderar el proyecto. Ambos tienen experiencia en el diseño de tecnologías con personas ciegas o con baja visión y decidieron comenzar tratando de comprender cómo podría aumentar la tecnología de un agente. o extender, las capacidades de estos usuarios.

Ed Cutrell, investigador principal senior de la organización de investigación de Microsoft en Redmond, Washington, es co-líder del Proyecto Tokio. En su escritorio hay varias HoloLenses de Microsoft modificadas que los investigadores del proyecto están utilizando para ayudar a las personas ciegas y con baja visión a saber quién está y dónde en su entorno social. Crédito:Dan DeLong

Para comenzar, siguieron a un grupo de atletas y espectadores con diferentes niveles de visión en un viaje desde el Reino Unido a los Juegos Paralímpicos de 2016 en Río de Janeiro, Brasil, observar cómo interactuaban con otras personas mientras navegaban por los aeropuertos, asistió a recintos deportivos y a hacer turismo, entre otras actividades. Un aprendizaje clave, señaló Cutrell, fue cómo una comprensión enriquecida del contexto social podría ayudar a las personas ciegas o con baja visión a entender su entorno.

"Nosotros, como humanos, tener esto muy, sentido muy matizado y elaborado de comprensión social de cómo interactuar con las personas:tener una idea de quién está en la sala, Qué están haciendo, ¿Cuál es su relación conmigo? ¿Cómo puedo entender si son relevantes para mí o no? ", dijo." Y para las personas ciegas, muchas de las señales que damos por sentadas simplemente desaparecen ".

Este entendimiento estimuló una serie de talleres con la comunidad ciega y con baja visión que se enfocaron en tecnologías potenciales que podrían brindar tal experiencia. Peter Bosher, un ingeniero de audio de unos 50 años que ha sido ciego la mayor parte de su vida y trabajó con el equipo de Project Tokyo, dijo que el concepto de una tecnología que brindaba información sobre las personas que lo rodeaban resonó de inmediato.

"Siempre que me encuentre en una situación con más de dos o tres personas, especialmente si no conozco a algunos de ellos, se vuelve exponencialmente más difícil de tratar porque las personas usan cada vez más el contacto visual y el lenguaje corporal para indicar que quieren hablar con tal o cual persona, que quieren hablar ahora, ", dijo." Es realmente muy difícil como una persona ciega ".

Un HoloLens modificado

Una vez que los investigadores del Proyecto Tokio entendieron el tipo de experiencia de IA que querían crear, se propusieron construir la tecnología habilitadora. Comenzaron con Microsoft HoloLens original, un casco de realidad mixta que proyecta hologramas en el mundo real que los usuarios pueden manipular.

"HoloLens nos brinda mucho de lo que necesitamos para crear un agente de inteligencia artificial en tiempo real que pueda comunicar el entorno social, ", dijo Grayson durante una demostración de la tecnología en el laboratorio de investigación de Microsoft en Cambridge.

Por ejemplo, el dispositivo tiene una serie de cámaras en escala de grises que brindan una vista del entorno de casi 180 grados y una cámara a color de alta resolución para un reconocimiento facial de alta precisión. Además, los altavoces sobre los oídos del usuario permiten un audio espacializado:la creación de sonidos que parecen provenir de ubicaciones específicas alrededor del usuario.

Los expertos en aprendizaje automático del equipo del Proyecto Tokio desarrollaron luego algoritmos de visión por computadora que brindan diferentes niveles de información sobre quién se encuentra en cada lugar del entorno del usuario. Los modelos se ejecutan en unidades de procesamiento gráfico, conocidas como GPU, que se encuentran en el cofre negro que Grayson se llevó a la casa de Regan para que el usuario las probara con Theo.

Un modelo por ejemplo, detecta la pose de personas en el entorno, que proporciona una idea de dónde y qué tan lejos están las personas del usuario. Otro analiza el flujo de fotos de la cámara de alta resolución para reconocer a las personas y determinar si han optado por dar a conocer sus nombres al sistema. Toda esta información se transmite al usuario a través de señales de audio.

Por ejemplo, si el dispositivo detecta a una persona a un metro de distancia en el lado izquierdo del usuario, el sistema reproducirá un clic que suena como si viniera de un metro de distancia a la izquierda. Si el sistema reconoce el rostro de la persona, reproducirá un sonido de golpe, y si esa persona también es conocida por el sistema, anunciará su nombre.

Cuando el usuario solo escucha un clic pero quiere saber quién es la persona, una segunda capa de sonido que se asemeja a una banda elástica que se estira guía la mirada del usuario hacia el rostro de la persona. Cuando la cámara central del objetivo se conecta con la nariz de la persona, el usuario escucha un clic agudo y, si la persona es conocida por el sistema, su nombre.

"Me gusta particularmente lo que te da el ángulo de la mirada porque nunca estoy realmente seguro de cuál es el ángulo sensato en el que debe estar tu cabeza, "dijo Bosher, quien trabajó con el equipo de Project Tokyo en la experiencia de audio al principio del proceso de diseño y regresó al laboratorio de Cambridge para discutir su experiencia y ver la última versión. "Esa sería una gran herramienta para aprender el lenguaje corporal".

Prototipos con adultos

A medida que el equipo de Project Tokyo ha desarrollado y evolucionado la tecnología, los investigadores invitan habitualmente a adultos ciegos o con baja visión para que prueben el sistema y proporcionen comentarios. Para facilitar una interacción social más directa, por ejemplo, el equipo quitó las lentes de la parte frontal de las HoloLens.

Peter Bosher, medio, un ingeniero de audio ciego que trabajó con el equipo de Project Tokyo al principio del proceso de diseño, comprueba la última versión del sistema en el laboratorio de investigación de Microsoft en Cambridge, REINO UNIDO, con los investigadores Martin Grayson, izquierda, y Cecily Morrison, Derecha. Crédito:Jonathan Banks

Varios usuarios expresaron su deseo de obtener discretamente la información recopilada por el sistema sin girar la cabeza constantemente, que se sentía socialmente incómodo. Los comentarios llevaron al equipo de Project Tokyo a trabajar en funciones que ayuden a los usuarios a saber rápidamente quién los rodea. por ejemplo, pidiendo una descripción general y obteniendo una lectura espacial de todos los nombres de las personas que han dado permiso para ser reconocidos por el sistema.

Otra característica experimental alerta al usuario con un timbre espacializado cuando alguien los está mirando, porque las personas con visión típica suelen establecer contacto visual para iniciar una conversación. A diferencia de la protuberancia, sin embargo, el timbre no va seguido de un nombre.

"Ya usamos el nombre cuando miras a alguien, "Grayson le explicó a Emily, un evaluador de unos 20 años que tiene baja visión y visitó el laboratorio de Cambridge para conocer las características más recientes. "Pero también, al no dar el nombre, podría llamar su atención dirigirse a alguien que está tratando de llamar su atención. Y al volverse hacia ellos, averigua su nombre ".

"Estoy totalmente de acuerdo con eso. Así es como reaccionan las personas videntes. Capturan a alguien con el rabillo del ojo, o tienes ese sentido, y ve, Cecilia, '", Dijo Emily.

Los HoloLens modificados que los investigadores le mostraron a Emily también incluían una tira de LED colocada sobre la banda de cámaras. Una luz blanca rastrea a la persona más cercana al usuario y se vuelve verde cuando la persona ha sido identificada por el usuario. La función permite que los interlocutores o los transeúntes sepan que han sido vistos, lo que hace que sea más natural iniciar una conversación.

La tira de LED también brinda a las personas la oportunidad de salir del campo de visión del dispositivo y no ser vistas. si así lo eligen. "Cuando sabes que estás a punto de ser visto, también puedes decidir no ser visto, "señaló Morrison." Si sabe cuándo lo están viendo, sabes cuando no te ven ".

Una herramienta para enseñar habilidades de interacción social

A medida que avanza la investigación técnica, Project Tokyo está explorando una vía revelada en el proceso de investigación:usar la tecnología para ayudar a los niños ciegos o con baja visión a desarrollar habilidades de interacción social.

Dos tercios de los niños ciegos o con baja visión exhiben comportamientos sociales que son consistentes con los niños que están en el espectro del autismo. según la investigación académica. Por ejemplo, muchos niños ciegos o con baja visión parecen desconectados de sus compañeros de conversación, a menudo descansa la cabeza sobre una mesa con una oreja expuesta.

Morrison y Cutrell giraron Project Tokyo para explorar si una versión reducida del sistema podría usarse para ayudar a los niños ciegos o con baja visión a comprender cómo pueden usar sus cuerpos para iniciar y mantener interacciones con las personas.

Debido a que los investigadores de Microsoft ya tenían una relación con Theo, lo reclutaron para ayudar a adaptar el sistema para que funcione con los niños, como tener en cuenta la tendencia de los niños a sentarse juntos y, al mismo tiempo, rara vez se queda quieto.

"Cuando anunciaba los nombres de las personas, estaba tratando de anunciar dos nombres a la vez y pedí que eso se cambiara porque, básicamente, fue muy, es muy difícil escuchar el nombre de alguien, "Recordó Theo.

Los investigadores también exploraron cómo Theo usó el sistema. Por ejemplo, durante una comida familiar, comenzó a sutilmente, pero repetidamente, mueva la cabeza de un lado a otro para obligar al sistema a leer los nombres de las personas con las que estaba hablando.

"Creemos que estaba usando eso para apoyar su atención espacial hacia una persona al actualizar su memoria de trabajo de dónde estaban, ", Dijo Morrison." Eso es algo que nunca podríamos haber predicho, pero una estrategia muy poderosa para ayudarlo a mantener su atención, y si puede mantener su atención, puede mantener un tema de conversación ".

Otros usos de la tecnología estaban más en línea con la hipótesis de los investigadores de que le ayudaría a desarrollar habilidades para interactuar socialmente en un mundo dominado por personas videntes.

Martin Grayson, izquierda, un ingeniero senior de desarrollo de software de investigación en el laboratorio de investigación de Microsoft en Cambridge, REINO UNIDO, registra a la investigadora de Microsoft Cecily Morrison, Derecha, en el sistema Project Tokyo para pruebas de usuario. Crédito:Jonathan Banks

Por ejemplo, como otros niños ciegos o con baja visión, Theo pondría su cabeza sobre la mesa durante situaciones sociales, una oreja ladeada al mundo. Los investigadores jugaron una serie de juegos con Theo diseñados para resaltar el poder social que podría surgir al usar su cuerpo y cabeza para entablar una conversación con personas videntes.

En un juego que se juega en el laboratorio los investigadores tenían un problema grupal que resolver. Theo conocía la respuesta. Los investigadores solo conocían el tema y solo podían hablar cuando Theo los miraba. Cuando Theo miró hacia otro lado, tenían que dejar de hablar.

"De repente se dio cuenta de que podía mantener una conversación, ", Dijo Morrison." Llegó a comprender el poder de poder mirar a alguien, el poder que le dio en una conversación y con eso habilitó un nuevo conjunto de capacidades sociales que no había podido lograr antes ".

Hoy dia, Theo rara vez habla con la cabeza sobre la mesa. Ya sea que use las HoloLens modificadas o no, gira su cuerpo y su rostro hacia la persona que quiere involucrar. Se desconoce si el cambio persistirá a largo plazo, los investigadores tampoco están seguros de si otros niños ciegos o con baja visión responderán de manera similar.

"Por lo que estamos viendo con Theo, tenemos un buen presentimiento al respecto, porque lo hemos visto con el, pero ese es un caso de uno. Y quién sabe si eso hubiera sucedido de todos modos, "Cutrell dijo." Es por eso que estamos girando hacia la siguiente fase, que se centrará en muchos más niños y también en un rango de edad más amplio ".

Futuro de Tokio

El esfuerzo de investigación más amplio del Proyecto Tokio continúa, incluyendo nuevas direcciones en el aprendizaje automático que permiten a los usuarios adaptar el sistema a sus preferencias personales. Sebastián Tschiatschek, un investigador de aprendizaje automático en el laboratorio de Cambridge, está trabajando en funciones que permiten a los usuarios mostrar al sistema el tipo y la cantidad de información que desean escuchar.

El desarrollo de la personalización requiere que Tschiatschek adopte un enfoque poco convencional del aprendizaje automático.

"Lo que nos gusta hacer es formalizar un problema en alguna forma matemática, ", dijo." No se puede hacer tan fácilmente en este problema. Gran parte del desarrollo proviene de probar cosas, tener esta interacción con la gente, viendo lo que les gusta, no me gusta y mejora de los algoritmos ".

El deseo de personalización, él explicó, existe porque las personas ciegas o con baja visión tienen diferentes niveles de visión y, por lo tanto, diferentes necesidades de información. Y lo que es más, los usuarios del sistema se frustran cuando les proporciona información que ya conocen.

"Para lograr la visión del Proyecto Tokio, hay que combinar tantas cosas que no se resuelven solas, "Tschiatschek dijo.

Por último, Project Tokyo trata de demostrar cómo crear agentes personales inteligentes que amplíen las capacidades de todos los usuarios. Para llegar Morrison, Cutrell y sus colegas continuarán trabajando con personas ciegas o con baja visión, incluyendo más niños.

"Lo que vimos con Theo es bastante poderoso, ", Dijo Morrison en su oficina el día después de la prueba del sistema en la casa de Regan." Fue poderoso porque él tenía el control de su mundo de una manera que no podía tener antes ".

Entre la creciente cohorte de niños que participarán en el Proyecto Tokio se encuentra el hijo de 7 años de Morrison, Ronan, que ha sido ciego de nacimiento.

"Creo que vamos a ver eso con Ronan, ", agregó." Estoy muy emocionada de intentarlo ".

Manzana, Broadcom condenada a pagar 1.100 millones de dólares por infracción de patente

El Watson Center de IBM ofrece IA para todos, de chefs a ingenieros

Electrónica