• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Enseñar inteligencia artificial para conectar sentidos como la visión y el tacto.

    Crédito:CC0 Public Domain

    En el libro de la autora canadiense Margaret Atwood El asesino ciego , ella dice que "el tacto viene antes que la vista, antes del discurso. Es el primer idioma y el último y siempre dice la verdad ".

    Si bien nuestro sentido del tacto nos da un canal para sentir el mundo físico, nuestros ojos nos ayudan a comprender de inmediato la imagen completa de estas señales táctiles.

    Los robots que han sido programados para ver o sentir no pueden usar estas señales de manera tan intercambiable. Para cerrar mejor esta brecha sensorial, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han creado una inteligencia artificial predictiva (IA) que puede aprender a ver tocando, y aprende a sentir viendo.

    El sistema del equipo puede crear señales táctiles realistas a partir de entradas visuales, y predecir qué objeto y qué parte se toca directamente desde esas entradas táctiles. Utilizaron un brazo robótico KUKA con un sensor táctil especial llamado GelSight, diseñado por otro grupo del MIT.

    Usando una simple cámara web, el equipo registró cerca de 200 objetos, como herramientas, productos domésticos, tejidos y más, ser tocado más de 12, 000 veces. Rompiendo esos 12, 000 videoclips en fotogramas estáticos, el equipo compiló "VisGel, "un conjunto de datos de más de 3 millones de imágenes emparejadas visuales / táctiles.

    "Al mirar la escena, nuestro modelo puede imaginar la sensación de tocar una superficie plana o un borde afilado, "dice Yunzhu Li, CSAIL Ph.D. estudiante y autor principal de un nuevo artículo sobre el sistema. "Tocando ciegamente alrededor, nuestro modelo puede predecir la interacción con el entorno puramente a partir de sentimientos táctiles. Unir estos dos sentidos podría potenciar al robot y reducir los datos que podríamos necesitar para tareas que impliquen manipular y agarrar objetos ".

    Trabajo reciente para equipar a los robots con sentidos físicos más parecidos a los humanos, como el proyecto del MIT de 2016 que utiliza el aprendizaje profundo para indicar visualmente los sonidos, o un modelo que predice las respuestas de los objetos a las fuerzas físicas, ambos utilizan grandes conjuntos de datos que no están disponibles para comprender las interacciones entre la visión y el tacto.

    La técnica del equipo soluciona esto mediante el uso del conjunto de datos de VisGel, y algo llamado redes generativas adversarias (GAN).

    Yunzhu Li es estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). Crédito:Instituto de Tecnología de Massachusetts

    Las GAN utilizan imágenes visuales o táctiles para generar imágenes en la otra modalidad. Funcionan utilizando un "generador" y un "discriminador" que compiten entre sí, donde el generador tiene como objetivo crear imágenes de aspecto real para engañar al discriminador. Cada vez que el discriminador "atrapa" al generador, tiene que exponer el razonamiento interno de la decisión, lo que permite que el generador se mejore repetidamente.

    Visión para tocar

    Los humanos pueden inferir cómo se siente un objeto con solo verlo. Para dar mejor a las máquinas este poder, el sistema primero tenía que localizar la posición del toque, y luego deducir información sobre la forma y el tacto de la región.

    Las imágenes de referencia, sin ninguna interacción robot-objeto, ayudaron al sistema a codificar detalles sobre los objetos y el entorno. Luego, cuando el brazo robótico estaba en funcionamiento, el modelo podría simplemente comparar el marco actual con su imagen de referencia, e identificar fácilmente la ubicación y la escala del toque.

    Esto podría parecerse a alimentar al sistema con una imagen de un mouse de computadora, y luego "ver" el área donde el modelo predice que el objeto debe tocarse para recogerlo, lo que podría ayudar enormemente a las máquinas a planificar acciones más seguras y eficientes.

    Toque a la visión

    Para tocar la visión, el objetivo era que el modelo produjera una imagen visual basada en datos táctiles. El modelo analizó una imagen táctil, y luego descubrió la forma y el material de la posición de contacto. Luego volvió a mirar la imagen de referencia para "alucinar" la interacción.

    Por ejemplo, si durante la prueba el modelo se alimentó con datos táctiles en un zapato, podría producir una imagen de dónde es más probable que se toque ese zapato.

    Este tipo de habilidad podría ser útil para realizar tareas en casos en los que no hay datos visuales, como cuando se apaga una luz, o si una persona está alcanzando ciegamente una caja o un área desconocida.

    Mirando hacia el futuro

    El conjunto de datos actual solo tiene ejemplos de interacciones en un entorno controlado. El equipo espera mejorar esto mediante la recopilación de datos en áreas más no estructuradas, o usando un nuevo guante táctil diseñado por el MIT, para aumentar mejor el tamaño y la diversidad del conjunto de datos.

    Todavía hay detalles que pueden ser difíciles de inferir de los modos de cambio, como decir el color de un objeto con solo tocarlo, o decir lo suave que es un sofá sin presionarlo. Los investigadores dicen que esto podría mejorarse creando modelos más robustos para la incertidumbre, para ampliar la distribución de posibles resultados.

    En el futuro, este tipo de modelo podría ayudar a una relación más armoniosa entre la visión y la robótica, especialmente para el reconocimiento de objetos, avaro, mejor comprensión de la escena, y ayudar con la integración perfecta entre humanos y robots en un entorno de asistencia o de fabricación.

    "Este es el primer método que puede traducirse de manera convincente entre señales visuales y táctiles, "dice Andrew Owens, un postdoctorado en la Universidad de California en Berkeley. "Métodos como este tienen el potencial de ser muy útiles para la robótica, donde debe responder preguntas como "¿este objeto es duro o blando?", o 'si levanto esta taza por el asa, ¿Qué tan bueno será mi agarre? "Este es un problema muy desafiante, dado que las señales son tan diferentes, y este modelo ha demostrado una gran capacidad ".

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com