• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Ayudar a las máquinas a percibir algunas leyes de la física

    Un modelo inventado por el MIT demuestra una comprensión de algo de "física intuitiva" básica al registrar "sorpresa" cuando los objetos en las simulaciones se mueven de formas inesperadas, como rodar detrás de una pared y no reaparecer del otro lado. Crédito:Christine Daniloff, MIT

    Los seres humanos tienen una comprensión temprana de las leyes de la realidad física. Infantes por ejemplo, tener expectativas sobre cómo los objetos deben moverse e interactuar entre sí, y se sorprenderán cuando hagan algo inesperado, como desaparecer en un truco de magia de prestidigitación.

    Ahora, los investigadores del MIT han diseñado un modelo que demuestra una comprensión de algo de "física intuitiva" básica sobre cómo deberían comportarse los objetos. El modelo podría usarse para ayudar a construir una inteligencia artificial más inteligente y, Sucesivamente, proporcionar información para ayudar a los científicos a comprender la cognición infantil.

    El modelo, llamado ADEPT, observa objetos que se mueven alrededor de una escena y hace predicciones sobre cómo deberían comportarse los objetos, basado en su física subyacente. Mientras rastrea los objetos, el modelo emite una señal en cada cuadro de video que se correlaciona con un nivel de "sorpresa":cuanto mayor es la señal, mayor es la sorpresa. Si un objeto alguna vez no coincide drásticamente con las predicciones del modelo, por, decir, desaparecer o teletransportarse a través de una escena:sus niveles de sorpresa aumentarán.

    En respuesta a videos que muestran objetos que se mueven de formas físicamente plausibles e inverosímiles, el modelo registró niveles de sorpresa que coincidieron con los niveles reportados por humanos que habían visto los mismos videos.

    "Para cuando los bebés tienen 3 meses, tienen la noción de que los objetos no aparecen ni desaparecen de la existencia, y no pueden moverse entre sí o teletransportarse, "dice el primer autor Kevin A. Smith, un científico investigador en el Departamento de Ciencias Cerebrales y Cognitivas (BCS) y miembro del Centro de Cerebros, Mentes y Máquinas (CBMM). "Queríamos capturar y formalizar ese conocimiento para convertir la cognición infantil en agentes de inteligencia artificial. Ahora nos estamos acercando a los humanos en la forma en que los modelos pueden separar escenas básicas inverosímiles o plausibles".

    Junto a Smith en el artículo están los coautores Lingjie Mei, Licenciado en el Departamento de Ingeniería Eléctrica e Informática, y el científico investigador de BCS Shunyu Yao; Jiajun Wu Ph.D. '19; La investigadora de CBMM Elizabeth Spelke; Joshua B. Tenenbaum, profesor de ciencia cognitiva computacional, e investigador en CBMM, BCS, y el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el investigador de CBMM Tomer D. Ullman Ph.D. '15.

    Realidades no coincidentes

    ADEPT se basa en dos módulos:un módulo de "gráficos inversos" que captura representaciones de objetos a partir de imágenes sin procesar, y un "motor de física" que predice las representaciones futuras de los objetos a partir de una distribución de posibilidades.

    Los gráficos inversos básicamente extraen información de los objetos, como la forma, pose, y velocidad, a partir de las entradas de píxeles. Este módulo captura cuadros de video como imágenes y usa gráficos inversos para extraer esta información de los objetos en la escena. Pero no se empantana en los detalles. ADEPT solo requiere una geometría aproximada de cada forma para funcionar. En parte, esto ayuda al modelo a generalizar las predicciones a nuevos objetos, no solo en aquellos en los que está entrenado.

    "No importa si un objeto es un rectángulo o un círculo, o si es un camión o un pato. ADEPT solo ve que hay un objeto con alguna posición, moviéndose de cierta manera, para hacer predicciones, "Smith dice". De manera similar, Los bebés pequeños tampoco parecen preocuparse mucho por algunas propiedades como la forma cuando hacen predicciones físicas ".

    Estas descripciones de objetos burdas se introducen en un motor de física:software que simula el comportamiento de los sistemas físicos, como cuerpos rígidos o fluídicos, y se usa comúnmente para películas, Juegos de vídeo, y gráficos por computadora. El motor de física de los investigadores "empuja los objetos hacia adelante en el tiempo, ", Dice Ullman. Esto crea una variedad de predicciones, o una "distribución de creencias, "para saber qué pasará con esos objetos en el siguiente cuadro.

    Próximo, el modelo observa el siguiente fotograma real. Una vez más, captura las representaciones de objetos, que luego se alinea con una de las representaciones de objeto predichas a partir de su distribución de creencias. Si el objeto obedecía a las leyes de la física, no habrá mucha discrepancia entre las dos representaciones. Por otra parte, si el objeto hizo algo inverosímil, digamos, desapareció de detrás de una pared, habrá un desajuste importante.

    ADEPT luego vuelve a tomar muestras de su distribución de creencias y observa una probabilidad muy baja de que el objeto simplemente haya desaparecido. Si hay una probabilidad lo suficientemente baja, el modelo registra una gran "sorpresa" como pico de señal. Básicamente, la sorpresa es inversamente proporcional a la probabilidad de que ocurra un evento. Si la probabilidad es muy baja, el pico de señal es muy alto.

    "Si un objeto va detrás de una pared, su motor de física mantiene la creencia de que el objeto todavía está detrás de la pared. Si el muro se derrumba y no hay nada ahí, hay un desajuste, "Dice Ullman". Entonces, el modelo dice, 'Hay un objeto en mi predicción, pero no veo nada. La única explicación es que desapareció, así que eso es sorprendente '".

    Violación de expectativas

    En psicología del desarrollo, los investigadores realizan pruebas de "violación de las expectativas" en las que se muestran pares de videos a los bebés. Un video muestra un evento plausible, con objetos que se adhieren a sus nociones esperadas de cómo funciona el mundo. El otro video es el mismo en todos los sentidos, excepto que los objetos se comportan de una manera que viola las expectativas de alguna manera. Los investigadores a menudo utilizarán estas pruebas para medir cuánto tiempo el bebé mira una escena después de que ha ocurrido una acción inverosímil. Cuanto más tiempo miran, los investigadores plantean la hipótesis, cuanto más se sorprendan o se interesen por lo que acaba de suceder.

    Por sus experimentos, los investigadores crearon varios escenarios basados ​​en la investigación clásica del desarrollo para examinar el conocimiento del objeto central del modelo. Emplearon a 60 adultos para ver 64 videos de escenarios conocidos físicamente plausibles y físicamente inverosímiles. Objetos, por ejemplo, se moverá detrás de una pared y, cuando cae el muro, todavía estarán allí o se habrán ido. Los participantes calificaron su sorpresa en varios momentos en una escala creciente de 0 a 100. Luego, los investigadores mostraron los mismos videos al modelo. Específicamente, los escenarios examinaron la capacidad del modelo para capturar nociones de permanencia (los objetos no aparecen ni desaparecen sin razón), continuidad (los objetos se mueven a lo largo de trayectorias conectadas), y solidez (los objetos no pueden moverse entre sí).

    ADEPT hizo coincidir a los humanos particularmente bien en videos en los que los objetos se movían detrás de las paredes y desaparecían cuando se retiraba la pared. Curiosamente, el modelo también coincidió con niveles de sorpresa en videos que a los humanos no les sorprendieron, pero que tal vez deberían haberlo hecho. Por ejemplo, en un video donde un objeto que se mueve a cierta velocidad desaparece detrás de una pared e inmediatamente sale por el otro lado, el objeto podría haberse acelerado dramáticamente cuando pasó detrás de la pared o podría haberse teletransportado al otro lado. En general, los humanos y ADEPT estaban menos seguros acerca de si ese evento fue o no sorprendente. Los investigadores también encontraron que las redes neuronales tradicionales que aprenden física a partir de las observaciones, pero que no representan objetos explícitamente, son mucho menos precisas para diferenciar escenas sorprendentes de escenas no sorprendentes. y sus elecciones para escenas sorprendentes no suelen coincidir con las de los humanos.

    Próximo, los investigadores planean profundizar en cómo los bebés observan y aprenden sobre el mundo, con el objetivo de incorporar cualquier hallazgo nuevo en su modelo. Estudios, por ejemplo, muestran que los bebés hasta cierta edad en realidad no se sorprenden mucho cuando los objetos cambian por completo de alguna manera, como si un camión desaparece detrás de una pared, pero resurge como un pato.

    "Queremos ver qué más se necesita incorporar para comprender el mundo más como los bebés, y formalizar lo que sabemos sobre psicología para construir mejores agentes de IA, "Dice Smith.

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com