• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Instantáneas del futuro:la herramienta aprende a predecir la mirada de los usuarios en las imágenes de la cámara frontal

    Crédito:CC0 Public Domain

    La miniaturización de las cámaras de video ha provocado una explosión en su uso, incluida su incorporación en una gama de dispositivos portátiles como cámaras para la cabeza, utilizado en escenarios que van desde eventos deportivos hasta combates armados. Para analizar las tareas realizadas en vista de dichos dispositivos y proporcionar orientación en tiempo real a las personas que los utilizan, Sería útil caracterizar dónde se enfoca realmente el usuario dentro del metraje en cada momento en el tiempo, pero las herramientas disponibles para predecir esto aún son limitadas.

    En un nuevo estudio informado en la 15a Conferencia Europea de Visión por Computador (ECCV 2018), investigadores de la Universidad de Tokio han desarrollado una herramienta computacional que puede aprender de las imágenes tomadas con una cámara frontal, en este caso de diversas tareas realizadas en la cocina, y luego predecir con precisión dónde se dirigirá el enfoque del usuario a continuación. Esta nueva herramienta podría ser útil para permitir que las tecnologías vinculadas a video predigan qué acciones está realizando el usuario actualmente, y proporcionar la orientación adecuada sobre el siguiente paso.

    Los programas existentes para predecir dónde es probable que caiga la mirada humana dentro de un cuadro de metraje de video se han basado generalmente en el concepto de "prominencia visual, "que utiliza distinciones de características como el color, intensidad, y contraste dentro de la imagen para predecir dónde es probable que esté mirando una persona. Sin embargo, en imágenes de sujetos humanos que realizan tareas complejas, este enfoque de prominencia visual es inadecuado, ya que es probable que el individuo cambie su atención de un objeto a otro en una secuencia, y a menudo predecible, conducta.

    Para aprovechar esta previsibilidad, en este estudio, el equipo utilizó un enfoque novedoso que combinaba la prominencia visual con la "predicción de la mirada, "que implica que una inteligencia artificial aprenda tales secuencias de acciones a partir de imágenes existentes y luego aplique el conocimiento obtenido para predecir la dirección de la mirada del usuario en nuevas imágenes.

    "Nuestro nuevo enfoque implica la construcción de un 'mapa de prominencia' para cada fotograma de metraje, luego, un 'mapa de atención' basado en dónde miraba el usuario anteriormente y en el movimiento de la cabeza del usuario, y finalmente la combinación de ambos en un 'mapa de mirada, "Dice Yoichi Sato." Nuestros resultados mostraron que esta nueva herramienta superó a las alternativas anteriores en términos de predecir hacia dónde se dirigía realmente la mirada del usuario de la cámara frontal ".

    Aunque los resultados del equipo se obtuvieron para imágenes de tareas en una cocina, como agua hirviendo en una estufa, podrían extenderse a situaciones como tareas realizadas en oficinas o fábricas. De hecho, según el autor principal Yifei Huang, "Las herramientas para evaluar los llamados videos egocéntricos de este tipo podrían incluso aplicarse en un contexto médico, como evaluar dónde se está enfocando un cirujano y ofrecer orientación sobre los pasos más apropiados que se deben tomar a continuación en una operación ".

    El artículo "Predicción de la mirada en video egocéntrico mediante el aprendizaje de la transición de la atención dependiente de la tarea" se publica en las actas de la Conferencia Europea sobre Visión por Computadora (ECCV 2018) y como documento arXiv en arxiv.org/abs/1803.09125.


    © Ciencia https://es.scienceaq.com