Aude Oliva (derecha), un científico investigador principal en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial y Dan Gutfreund (izquierda), investigador principal del Laboratorio de IA MIT-IBM Watson y miembro del personal de IBM Research, son los investigadores principales del conjunto de datos Moments in Time, uno de los proyectos relacionados con algoritmos de IA financiados por el Laboratorio de IA MIT-IBM Watson. Crédito:John Mottern / Feature Photo Service para IBM
Una persona que mira videos que muestran cosas que se abren:una puerta, un libro, cortinas una flor floreciente, un perro bostezando:entiende fácilmente el mismo tipo de acción que se describe en cada clip.
"Los modelos de computadora fallan miserablemente en identificar estas cosas. ¿Cómo lo hacen los humanos con tanta facilidad?" pregunta Dan Gutfreund, investigador principal del Laboratorio de IA de MIT-IBM Watson y miembro del personal de IBM Research. "Procesamos la información como sucede en el espacio y el tiempo. ¿Cómo podemos enseñar a los modelos informáticos a hacer eso?"
Estas son las grandes preguntas detrás de uno de los nuevos proyectos en curso en el Laboratorio de IA MIT-IBM Watson, una colaboración para la investigación sobre las fronteras de la inteligencia artificial. Lanzado el otoño pasado el laboratorio conecta a los investigadores del MIT y de IBM para trabajar en algoritmos de IA, la aplicación de la IA a las industrias, la física de la IA, y formas de utilizar la IA para promover la prosperidad compartida.
El conjunto de datos Moments in Time es uno de los proyectos relacionados con los algoritmos de inteligencia artificial financiados por el laboratorio. Empareja a Gutfreund con Aude Oliva, científico investigador principal del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, como investigadores principales del proyecto. Moments in Time se basa en una colección de 1 millón de videos anotados de eventos dinámicos que se desarrollan en tres segundos. Gutfreund y Oliva, quien también es el director ejecutivo del MIT en MIT-IBM Watson AI Lab, están utilizando estos clips para abordar uno de los próximos grandes pasos de la IA:enseñar a las máquinas a reconocer acciones.
Aprendiendo de escenas dinámicas
El objetivo es proporcionar algoritmos de aprendizaje profundo con una amplia cobertura de un ecosistema de momentos visuales y auditivos que pueden permitir a los modelos aprender información que no necesariamente se enseña de manera supervisada y generalizar a situaciones y tareas novedosas. dicen los investigadores.
"A medida que crecemos, miramos a nuestro alrededor vemos personas y objetos en movimiento, escuchamos sonidos que hacen las personas y los objetos. Tenemos muchas experiencias visuales y auditivas. Un sistema de IA necesita aprender de la misma manera y alimentarse con videos e información dinámica, "Dice Oliva.
Para cada categoría de acción en el conjunto de datos, como cocinar, corriendo, o apertura, hay más de 2, 000 videos. Los clips cortos permiten que los modelos informáticos aprendan mejor la diversidad de significados en torno a acciones y eventos específicos.
"Este conjunto de datos puede servir como un nuevo desafío para desarrollar modelos de IA que escalen al nivel de complejidad y razonamiento abstracto que un humano procesa a diario, "Agrega Oliva, describiendo los factores involucrados. Los eventos pueden incluir personas, objetos, animales y naturaleza. Pueden ser simétricos en el tiempo, por ejemplo, abrir significa cerrar en orden inverso. Y pueden ser transitorios o sostenidos.
Oliva y Gutfreund, junto con investigadores adicionales del MIT e IBM, se reunieron semanalmente durante más de un año para abordar problemas técnicos, por ejemplo, cómo elegir las categorías de acción para las anotaciones, dónde encontrar los videos, y cómo armar una amplia gama para que el sistema de inteligencia artificial aprenda sin prejuicios. El equipo también desarrolló modelos de aprendizaje automático, que luego se utilizaron para escalar la recopilación de datos. "Nos alineamos muy bien porque tenemos la misma ilusión y el mismo objetivo, "dice Oliva.
Aumento de la inteligencia humana
Un objetivo clave en el laboratorio es el desarrollo de sistemas de inteligencia artificial que van más allá de las tareas especializadas para abordar problemas más complejos y beneficiarse de un aprendizaje sólido y continuo. "Buscamos nuevos algoritmos que no solo aprovechen los macrodatos cuando estén disponibles, pero también aprender de datos limitados para aumentar la inteligencia humana, "dice Sophie V. Vandebroek, director de operaciones de IBM Research, sobre la colaboración.
Además de combinar las fortalezas técnicas y científicas únicas de cada organización, IBM también está aportando a los investigadores del MIT una afluencia de recursos, señalado por su inversión de $ 240 millones en esfuerzos de IA durante los próximos 10 años, dedicado al MIT-IBM Watson AI Lab. Y la alineación del interés de MIT-IBM en la IA está resultando beneficiosa, según Oliva.
"IBM llegó al MIT con el interés de desarrollar nuevas ideas para un sistema de inteligencia artificial basado en la visión. Propuse un proyecto en el que construimos conjuntos de datos para alimentar el modelo sobre el mundo. No se había hecho antes a este nivel. Fue una empresa novedosa. Ahora hemos alcanzado el hito de 1 millón de videos para entrenamiento de IA visual, y la gente puede visitar nuestro sitio web, descargar el conjunto de datos y nuestros modelos informáticos de aprendizaje profundo, a los que se les ha enseñado a reconocer acciones ".
Los resultados cualitativos hasta ahora han demostrado que los modelos pueden reconocer bien los momentos en los que la acción está bien enmarcada y de cerca, pero fallan cuando la categoría es detallada o hay desorden de fondo, entre otras cosas. Oliva dice que los investigadores de MIT e IBM han enviado un artículo que describe el rendimiento de los modelos de redes neuronales entrenados en el conjunto de datos, que a su vez se profundizó por puntos de vista compartidos. "Los investigadores de IBM nos dieron ideas para agregar categorías de acción para tener más riqueza en áreas como el cuidado de la salud y los deportes. Ampliaron nuestra visión. Nos dieron ideas sobre cómo la IA puede tener un impacto desde la perspectiva de los negocios y las necesidades del mundo, " ella dice.
Esta primera versión del conjunto de datos Moments in Time es uno de los conjuntos de datos de video anotados por humanos más grandes que captura eventos cortos visuales y audibles. todos los cuales están etiquetados con una etiqueta de acción o actividad entre 339 clases diferentes que incluyen una amplia gama de verbos comunes. Los investigadores tienen la intención de producir más conjuntos de datos con una variedad de niveles de abstracción para servir como trampolines hacia el desarrollo de algoritmos de aprendizaje que puedan construir analogías entre las cosas. imaginar y sintetizar eventos novedosos, e interpretar escenarios.
En otras palabras, recién están comenzando, dice Gutfreund. "Esperamos que el conjunto de datos de Moments in Time permita que los modelos comprendan en profundidad las acciones y la dinámica de los videos".
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.