Los investigadores del MIT han desarrollado un "analizador semántico" que aprende a través de la observación para imitar más de cerca el proceso de adquisición del lenguaje de un niño. lo que podría ampliar enormemente las capacidades de la informática. Crédito:Instituto de Tecnología de Massachusetts
Los niños aprenden el lenguaje observando su entorno, escuchando a la gente que los rodea, y conectando los puntos entre lo que ven y oyen. Entre otras cosas, esto ayuda a los niños a establecer el orden de las palabras de su idioma, por ejemplo, dónde se encuentran los sujetos y los verbos en una oración.
En informática, el aprendizaje del lenguaje es tarea de los analizadores sintácticos y semánticos. Estos sistemas se entrenan en oraciones anotadas por humanos que describen la estructura y el significado detrás de las palabras. Los analizadores son cada vez más importantes para las búsquedas web, consulta de bases de datos en lenguaje natural, y sistemas de reconocimiento de voz como Alexa y Siri. Pronto, también se pueden utilizar para robótica doméstica.
Pero recopilar los datos de las anotaciones puede llevar mucho tiempo y resultar difícil para los idiomas menos comunes. Adicionalmente, los humanos no siempre están de acuerdo con las anotaciones, y es posible que las anotaciones en sí mismas no reflejen con precisión cómo habla la gente de forma natural.
En un artículo que se presenta en la conferencia de métodos empíricos en el procesamiento del lenguaje natural de esta semana, Los investigadores del MIT describen un analizador que aprende a través de la observación para imitar más de cerca el proceso de adquisición del lenguaje de un niño, lo que podría ampliar enormemente las capacidades del analizador. Para aprender la estructura del lenguaje, el analizador observa videos con subtítulos, sin otra información, y asocia las palabras con objetos y acciones registrados. Dada una nueva oración, el analizador puede usar lo que ha aprendido sobre la estructura del lenguaje para predecir con precisión el significado de una oración, sin el video.
Este enfoque "débilmente supervisado", lo que significa que requiere datos de entrenamiento limitados, imita cómo los niños pueden observar el mundo que los rodea y aprender el lenguaje. sin que nadie proporcione un contexto directo. El enfoque podría expandir los tipos de datos y reducir el esfuerzo necesario para entrenar analizadores, según los investigadores. Algunas oraciones directamente anotadas, por ejemplo, podría combinarse con muchos videos con subtítulos, que son más fáciles de conseguir, para mejorar el rendimiento.
En el futuro, el analizador podría usarse para mejorar la interacción natural entre humanos y robots personales. Un robot equipado con el analizador, por ejemplo, podría observar constantemente su entorno para reforzar su comprensión de los comandos hablados, incluso cuando las oraciones habladas no son completamente gramaticales o claras. "La gente habla entre sí en oraciones parciales, pensamientos corridos, y lenguaje desordenado. Quieres un robot en tu casa que se adapte a su forma particular de hablar ... y aún así descubra lo que quieren decir, "dice el coautor Andrei Barbu, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y del Centro de Cerebros, Mentes and Machines (CBMM) dentro del Instituto McGovern del MIT.
El analizador también podría ayudar a los investigadores a comprender mejor cómo aprenden el lenguaje los niños pequeños. "Un niño tiene acceso a redundantes, información complementaria de diferentes modalidades, incluyendo escuchar a padres y hermanos hablar sobre el mundo, así como información táctil e información visual, [que le ayudan] a comprender el mundo, "dice el coautor Boris Katz, científico investigador principal y director del Grupo InfoLab en CSAIL. "Es un rompecabezas asombroso, para procesar toda esta información sensorial simultánea. Este trabajo es parte de una pieza más grande para comprender cómo ocurre este tipo de aprendizaje en el mundo ".
Los coautores del artículo son:primera autora Candace Ross, un estudiante de posgrado en el Departamento de Ingeniería Eléctrica e Informática y CSAIL, e investigador en CBMM; Yevgeni Berzak Ph.D. '17, un postdoctorado en el Grupo de Psicolingüística Computacional en el Departamento de Ciencias Cognitivas y del Cerebro; y el estudiante graduado de CSAIL Battushig Myanganbayar.
Aprendiz visual
Por su trabajo, los investigadores combinaron un analizador semántico con un componente de visión por computadora entrenado en objetos, humano, y reconocimiento de actividad en video. Los analizadores semánticos generalmente se entrenan en oraciones anotadas con código que asigna significado a cada palabra y las relaciones entre las palabras. Algunos han sido entrenados en imágenes fijas o simulaciones por computadora.
El nuevo analizador es el primero en ser entrenado usando video, Dice Ross. En parte, los videos son más útiles para reducir la ambigüedad. Si el analizador no está seguro, decir, una acción u objeto en una oración, puede hacer referencia al video para aclarar las cosas. "Hay componentes temporales, objetos que interactúan entre sí y con personas, y propiedades de alto nivel que no verías en una imagen fija o simplemente en el lenguaje. "Dice Ross.
Los investigadores compilaron un conjunto de datos de unos 400 videos que muestran a personas que llevan a cabo una serie de acciones, incluyendo levantar un objeto o dejarlo, y caminar hacia un objeto. Los participantes de la plataforma de crowdsourcing Mechanical Turk proporcionaron 1, 200 subtítulos para esos videos. Dejaron de lado 840 ejemplos de subtítulos de video para entrenamiento y ajuste, y usó 360 para probar. Una ventaja de utilizar el análisis basado en la visión es que "no necesita tantos datos, aunque si tuviera [los datos], podría escalar a grandes conjuntos de datos, "Dice Barbu.
Entrenando, los investigadores le dieron al analizador el objetivo de determinar si una oración describe con precisión un video dado. Le dieron al analizador un video y una leyenda coincidente. El analizador extrae los posibles significados del título como expresiones matemáticas lógicas. La frase, "La mujer está recogiendo una manzana, " por ejemplo, puede expresarse como:λxy. mujer x, recogida x y, manzana y.
Esas expresiones y el video se ingresan al algoritmo de visión por computadora, llamado "Rastreador de frases, "desarrollado por Barbu y otros investigadores. El algoritmo analiza cada cuadro de video para rastrear cómo los objetos y las personas se transforman con el tiempo, para determinar si las acciones se están desarrollando como se describe. De este modo, determina si el significado del video es posiblemente verdadero.
Conectando los puntos
The expression with the most closely matching representations for objects, humans, and actions becomes the most likely meaning of the caption. The expression, initially, may refer to many different objects and actions in the video, but the set of possible meanings serves as a training signal that helps the parser continuously winnow down possibilities. "By assuming that all of the sentences must follow the same rules, that they all come from the same language, and seeing many captioned videos, you can narrow down the meanings further, " Barbu says.
En breve, the parser learns through passive observation:To determine if a caption is true of a video, the parser by necessity must identify the highest probability meaning of the caption. "The only way to figure out if the sentence is true of a video [is] to go through this intermediate step of, 'What does the sentence mean?' De lo contrario, you have no idea how to connect the two, " Barbu explains. "We don't give the system the meaning for the sentence. We say, 'There's a sentence and a video. The sentence has to be true of the video. Figure out some intermediate representation that makes it true of the video.'"
The training produces a syntactic and semantic grammar for the words it's learned. Given a new sentence, the parser no longer requires videos, but leverages its grammar and lexicon to determine sentence structure and meaning.
Por último, this process is learning "as if you're a kid, " Barbu says. "You see world around you and hear people speaking to learn meaning. Un día, I can give you a sentence and ask what it means and, even without a visual, you know the meaning."
En el trabajo futuro, the researchers are interested in modeling interactions, not just passive observations. "Children interact with the environment as they're learning. Our idea is to have a model that would also use perception to learn, " Ross says.
This work was supported, en parte, by the CBMM, the National Science Foundation, a Ford Foundation Graduate Research Fellowship, the Toyota Research Institute, and the MIT-IBM Brain-Inspired Multimedia Comprehension project.
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.