Los científicos informáticos del MIT han desarrollado un sistema que aprende a identificar objetos dentro de una imagen, basado en una descripción hablada de la imagen. Crédito:Christine Daniloff
Los científicos informáticos del MIT han desarrollado un sistema que aprende a identificar objetos dentro de una imagen, basado en una descripción hablada de la imagen. Dada una imagen y una leyenda de audio, el modelo resaltará en tiempo real las regiones relevantes de la imagen que se describe.
A diferencia de las tecnologías actuales de reconocimiento de voz, el modelo no requiere transcripciones manuales y anotaciones de los ejemplos en los que está entrenado. En lugar de, aprende palabras directamente de clips de voz grabados y objetos en imágenes sin procesar, y los asocia entre sí.
Actualmente, el modelo solo puede reconocer varios cientos de palabras y tipos de objetos diferentes. Pero los investigadores esperan que algún día su técnica combinada de reconocimiento de objetos de voz pueda ahorrar incontables horas de trabajo manual y abrir nuevas puertas en el reconocimiento de voz e imágenes.
Sistemas de reconocimiento de voz como Siri y Google Voice, por ejemplo, requieren transcripciones de miles de horas de grabaciones de voz. Usando estos datos, los sistemas aprenden a mapear señales de voz con palabras específicas. Este enfoque se vuelve especialmente problemático cuando, decir, nuevos términos entran en nuestro léxico, y los sistemas deben volver a capacitarse.
"Queríamos hacer el reconocimiento de voz de una manera más natural, aprovechar señales e información adicionales que los humanos tienen el beneficio de usar, pero a los que los algoritmos de aprendizaje automático no suelen tener acceso. Tuvimos la idea de entrenar a un modelo de una manera similar a caminar con un niño por el mundo y narrar lo que estás viendo. "dice David Harwath, investigador del Laboratorio de Informática e Inteligencia Artificial (CSAIL) y del Grupo de Sistemas de Lenguaje Hablado. Harwath fue coautor de un artículo que describe el modelo que se presentó en la reciente Conferencia Europea sobre Visión por Computador.
En el papel, los investigadores demuestran su modelo en una imagen de una niña con cabello rubio y ojos azules, con un vestido azul, con un faro blanco con techo rojo al fondo. El modelo aprendió a asociar qué píxeles de la imagen se correspondían con las palabras "niña, " "pelo rubio, " "ojos azules, " "vestido azul, "" casa de luz blanca, "y" techo rojo ". Cuando se narró una leyenda de audio, el modelo luego resaltó cada uno de esos objetos en la imagen tal como fueron descritos.
Una aplicación prometedora es aprender traducciones entre diferentes idiomas, sin necesidad de un anotador bilingüe. De los 7 estimados, 000 idiomas que se hablan en todo el mundo, sólo unos 100 tienen suficientes datos de transcripción para el reconocimiento de voz. Considerar, sin embargo, una situación en la que dos hablantes de diferentes idiomas describen la misma imagen. Si el modelo aprende señales del habla del lenguaje A que corresponden a los objetos de la imagen, y aprende las señales en el lenguaje B que corresponden a esos mismos objetos, podría asumir que esas dos señales, y las palabras coincidentes, son traducciones entre sí.
"Existe potencial para un mecanismo tipo Babel Fish, "Harwath dice, refiriéndose al auricular viviente ficticio en las novelas "Guía del autoestopista galáctico" que traduce diferentes idiomas al usuario.
Los coautores de CSAIL son:la estudiante de posgrado Adria Recasens; el estudiante visitante Didac Suris; el ex investigador Galen Chuang; Antonio Torralba, profesor de ingeniería eléctrica y ciencias de la computación que también dirige el Laboratorio de IA Watson de MIT-IBM; y el científico investigador principal James Glass, quien lidera el Grupo de Sistemas de Lenguaje Hablado en CSAIL.
Asociaciones audiovisuales
Este trabajo amplía un modelo anterior desarrollado por Harwath, Vidrio, y Torralba que correlaciona el habla con grupos de imágenes relacionadas temáticamente. En la investigación anterior, ponen imágenes de escenas de una base de datos de clasificación en la plataforma de crowdsourcing Mechanical Turk. Luego hicieron que la gente describiera las imágenes como si se las estuviera narrando a un niño, durante unos 10 segundos. Recopilaron más de 200, 000 pares de imágenes y subtítulos de audio, en cientos de categorías diferentes, como playas, Centros comerciales, calles de la ciudad, y dormitorios.
Luego diseñaron un modelo que consta de dos redes neuronales convolucionales (CNN) separadas. Uno procesa imágenes, y uno procesa espectrogramas, una representación visual de las señales de audio que varían con el tiempo. La capa más alta del modelo calcula las salidas de las dos redes y mapea los patrones de voz con datos de imagen.
Los investigadores por ejemplo, alimentar el modelo con el título A y la imagen A, cual es correcta. Luego, lo alimentarían con una leyenda B aleatoria con la imagen A, que es un emparejamiento incorrecto. Después de comparar miles de subtítulos incorrectos con la imagen A, el modelo aprende las señales de voz correspondientes a la imagen A, y asocia esas señales con palabras en los subtítulos. Como se describe en un estudio de 2016, el modelo aprendido, por ejemplo, para seleccionar la señal correspondiente a la palabra "agua, "y recuperar imágenes con masas de agua.
"Pero no proporcionó una forma de decir, 'This is exact point in time that somebody said a specific word that refers to that specific patch of pixels, '" Harwath says.
Making a matchmap
En el nuevo periódico, the researchers modified the model to associate specific words with specific patches of pixels. The researchers trained the model on the same database, but with a new total of 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.
In training, the model is similarly given correct and incorrect images and captions. But this time, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, decir, one second to capture a word or two.
With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, and so on, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.
The challenge is that, during training, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."
The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.
"It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.