Un equipo de científicos del MIT y otros lugares ha desarrollado una red neuronal, una forma de inteligencia artificial (IA), que pueda leer artículos científicos y presentar un resumen en inglés sencillo en una oración o dos. Crédito:Chelsea Turner
El trabajo de un escritor científico, incluyendo este, incluye la lectura de artículos de revistas llenos de terminología técnica especializada, y averiguar cómo explicar sus contenidos en un lenguaje que los lectores sin conocimientos científicos puedan entender.
Ahora, un equipo de científicos del MIT y otros lugares ha desarrollado una red neuronal, una forma de inteligencia artificial (IA), que puede hacer casi lo mismo, al menos hasta cierto punto:puede leer artículos científicos y presentar un resumen en inglés sencillo en una oración o dos.
Incluso en esta forma limitada, una red neuronal de este tipo podría ser útil para ayudar a los editores, escritores y los científicos escanean una gran cantidad de artículos para tener una idea preliminar de lo que tratan. Pero el enfoque que desarrolló el equipo también podría encontrar aplicaciones en una variedad de otras áreas además del procesamiento del lenguaje, incluida la traducción automática y el reconocimiento de voz.
El trabajo se describe en la revista Transacciones de la Asociación de Lingüística Computacional , en un artículo de Rumen Dangovski y Li Jing, ambos estudiantes de posgrado del MIT; Marin Soljačić, profesor de física en el MIT; Preslav Nakov, científico senior del Instituto de Investigación en Computación de Qatar, HBKU; y Mićo Tatalović, ex becario de Periodismo Científico Knight en el MIT y ex editor en Científico nuevo revista.
De la IA para la física al lenguaje natural
El trabajo surgió como resultado de un proyecto no relacionado, que implicó el desarrollo de nuevos enfoques de inteligencia artificial basados en redes neuronales, destinado a abordar ciertos problemas espinosos de la física. Sin embargo, los investigadores pronto se dieron cuenta de que el mismo enfoque podría usarse para abordar otros problemas computacionales difíciles, incluido el procesamiento del lenguaje natural, de formas que podrían superar a los sistemas de redes neuronales existentes.
"Hemos estado haciendo varios tipos de trabajo en IA durante algunos años, ", Dice Soljačić." Usamos IA para ayudar con nuestra investigación, básicamente para hacer mejor la física. Y a medida que nos familiarizamos con la IA, nos daríamos cuenta de que de vez en cuando existe la oportunidad de agregar algo al campo de la IA debido a algo que conocemos de la física:una determinada construcción matemática o una determinada ley de la física. Nos dimos cuenta de que oye si usamos eso, en realidad, podría ayudar con este o aquel algoritmo de IA en particular ".
Este enfoque podría ser útil en una variedad de tipos específicos de tareas, él dice, pero no todos. "No podemos decir que esto sea útil para toda la IA, pero hay casos en los que podemos utilizar información de la física para mejorar un algoritmo de IA determinado ".
Las redes neuronales en general son un intento de imitar la forma en que los humanos aprenden ciertas cosas nuevas:la computadora examina muchos ejemplos diferentes y "aprende" cuáles son los patrones subyacentes clave. Estos sistemas se utilizan ampliamente para el reconocimiento de patrones, como aprender a identificar objetos representados en fotografías.
Pero las redes neuronales en general tienen dificultades para correlacionar la información de una larga cadena de datos, como se requiere para interpretar un trabajo de investigación. Se han utilizado varios trucos para mejorar esta capacidad, incluyendo técnicas conocidas como memoria larga a corto plazo (LSTM) y unidades recurrentes controladas (GRU), pero aún quedan muy por debajo de lo que se necesita para el procesamiento real del lenguaje natural, dicen los investigadores.
El equipo ideó un sistema alternativo, que en lugar de basarse en la multiplicación de matrices, como son la mayoría de las redes neuronales convencionales, se basa en vectores que giran en un espacio multidimensional. El concepto clave es algo que ellos llaman unidad rotacional de memoria (RUM).
Esencialmente, el sistema representa cada palabra del texto mediante un vector en un espacio multidimensional:una línea de cierta longitud que apunta en una dirección particular. Cada palabra subsiguiente hace oscilar este vector en alguna dirección, representado en un espacio teórico que en última instancia puede tener miles de dimensiones. Al final del proceso, el vector final o conjunto de vectores se traduce de nuevo a su correspondiente cadena de palabras.
"RUM ayuda a las redes neuronales a hacer dos cosas muy bien, ", Dice Nakov." Les ayuda a recordar mejor, y les permite recordar información con mayor precisión ".
Después de desarrollar el sistema RUM para ayudar con ciertos problemas físicos difíciles, como el comportamiento de la luz en materiales de ingeniería complejos, "nos dimos cuenta de que uno de los lugares donde pensamos que este enfoque podría ser útil sería el procesamiento del lenguaje natural, "dice Soljačić, recordando una conversación con Tatalović, quien señaló que dicha herramienta sería útil para su trabajo como editor que intenta decidir sobre qué artículos escribir. En ese momento, Tatalović estaba explorando la inteligencia artificial en el periodismo científico como su proyecto de beca Knight.
"Así que probamos algunas tareas de procesamiento del lenguaje natural en él, ", Dice Soljačić." Una de las que probamos fue resumir artículos, y eso parece estar funcionando bastante bien ".
La prueba está en la lectura
Como ejemplo, alimentaron el mismo trabajo de investigación a través de una red neuronal convencional basada en LSTM y a través de su sistema basado en RUM. Los resúmenes resultantes fueron dramáticamente diferentes.
El sistema LSTM produjo este resumen muy repetitivo y bastante técnico:"Baylisascariasis, "mata ratones, ha puesto en peligro a la rata común y ha causado enfermedades como ceguera o consecuencias graves. Esta infección denominada "baylisascariasis, "mata ratones, ha puesto en peligro a la rata común y ha causado enfermedades como ceguera o consecuencias graves. Esta infección denominada "baylisascariasis, "mata ratones, ha puesto en peligro a la rata común allegheny.
Basado en el mismo documento, el sistema RUM produjo un resumen mucho más legible, y uno que no incluía la repetición innecesaria de frases:los mapaches urbanos pueden infectar a las personas más de lo que se suponía anteriormente. El 7 por ciento de las personas encuestadas dieron positivo en anticuerpos contra lombrices intestinales de mapache. Más del 90 por ciento de los mapaches en Santa Bárbara albergan este parásito.
Ya, el sistema basado en RUM se ha ampliado para que pueda "leer" artículos de investigación completos, no solo los resúmenes, para producir un resumen de su contenido. Los investigadores incluso han intentado utilizar el sistema en su propio artículo de investigación que describe estos hallazgos, el artículo que esta noticia intenta resumir.
Aquí está el resumen de la nueva red neuronal:Los investigadores han desarrollado un nuevo proceso de representación en la unidad rotacional de RUM, una memoria recurrente que se puede utilizar para resolver un amplio espectro de la revolución neuronal en el procesamiento del lenguaje natural.
Puede que no sea una prosa elegante, pero al menos llega a los puntos clave de información.
Çağlar Gülçehre, un científico investigador de la empresa británica de inteligencia artificial Deepmind Technologies, que no estuvo involucrado en este trabajo, dice que esta investigación aborda un problema importante en las redes neuronales, que tiene que ver con relacionar piezas de información que están muy separadas en el tiempo o en el espacio. "Este problema ha sido un tema muy fundamental en la IA debido a la necesidad de razonar durante largos retrasos en las tareas de predicción de secuencias, ", dice." Aunque no creo que este documento resuelva completamente este problema, muestra resultados prometedores en las tareas de dependencia a largo plazo, como la respuesta a preguntas, resumen de texto, y recuerdo asociativo ".
Gülçehre agrega:"Dado que los experimentos realizados y el modelo propuesto en este documento se publican como código abierto en Github, como resultado, muchos investigadores estarán interesados en probarlo en sus propias tareas. … Para ser más especifico, potencialmente, el enfoque propuesto en este documento puede tener un impacto muy alto en los campos del procesamiento del lenguaje natural y el aprendizaje por refuerzo, donde las dependencias a largo plazo son muy cruciales ".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.