• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Recuperando dimensiones perdidas de imágenes y videos

    Un modelo novedoso desarrollado en el MIT recupera datos valiosos perdidos de imágenes y videos que han sido "colapsados" en dimensiones más bajas. Puede, por ejemplo, recrear videos a partir de imágenes borrosas por movimiento o de cámaras que capturan el movimiento de las personas en las esquinas como líneas vagas unidimensionales. Crédito:Instituto de Tecnología de Massachusetts

    Los investigadores del MIT han desarrollado un modelo que recupera datos valiosos perdidos de imágenes y videos que han sido "colapsados" en dimensiones más bajas.

    El modelo podría usarse para recrear videos a partir de imágenes borrosas por movimiento, o de nuevos tipos de cámaras que capturan el movimiento de una persona en las esquinas, pero solo como líneas vagas unidimensionales. Si bien se necesitan más pruebas, los investigadores creen que este enfoque podría usarse algún día para convertir imágenes médicas en 2-D en exploraciones corporales en 3-D más informativas, pero más caras, lo que podría beneficiar a las imágenes médicas en las naciones más pobres.

    "En todos estos casos, los datos visuales tienen una dimensión, en el tiempo o en el espacio, que se pierde por completo, "dice Guha Balakrishnan, un postdoctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y primer autor de un artículo que describe el modelo, que se presentará en la Conferencia Internacional de Visión por Computador de la próxima semana. "Si recuperamos esa dimensión perdida, puede tener muchas aplicaciones importantes ".

    Los datos visuales capturados a menudo colapsan datos de múltiples dimensiones de tiempo y espacio en una o dos dimensiones, llamadas "proyecciones". Rayos X, por ejemplo, colapsar datos tridimensionales sobre estructuras anatómicas en una imagen plana. O, considere una toma de larga exposición de estrellas moviéndose por el cielo:las estrellas, cuya posición va cambiando con el tiempo, aparecen como rayas borrosas en la toma fija.

    Igualmente, "cámaras de esquina, "inventado recientemente en el MIT, detectar personas en movimiento en las esquinas. Estos podrían ser útiles para, decir, los bomberos encuentran personas en edificios en llamas. Pero las cámaras no son precisamente fáciles de usar. Actualmente solo producen proyecciones que parecen borrosas, líneas onduladas, correspondiente a la trayectoria y velocidad de una persona.

    Los investigadores inventaron un modelo de "desproyección visual" que utiliza una red neuronal para "aprender" patrones que hacen coincidir las proyecciones de baja dimensión con sus imágenes y videos originales de alta dimensión. Dadas las nuevas proyecciones, el modelo usa lo que ha aprendido para recrear todos los datos originales de una proyección.

    En experimentos, el modelo sintetizó fotogramas de video precisos que mostraban personas caminando, extrayendo información de un solo, líneas unidimensionales similares a las producidas por las cámaras de esquina. El modelo también recuperó fotogramas de video de un solo, proyecciones borrosas de movimiento de dígitos moviéndose alrededor de una pantalla, del popular conjunto de datos Moving MNIST.

    Junto a Balakrishnan en el papel están:Amy Zhao, estudiante de posgrado en el Departamento de Ingeniería Eléctrica e Informática (EECS) y CSAIL; Los profesores de EECS John Guttag, Fredo Durand, y William T. Freeman; y Adrian Dalca, miembro de la facultad de radiología de la Facultad de Medicina de Harvard.

    Pistas en píxeles

    El trabajo comenzó como un "problema de inversión genial" para recrear el movimiento que causa el desenfoque de movimiento en la fotografía de larga exposición. Balakrishnan dice. En los píxeles de una proyección existen algunas pistas sobre la fuente de alta dimensión.

    Cámaras digitales que capturan tomas de larga exposición, por ejemplo, básicamente agregará fotones durante un período de tiempo en cada píxel. Al capturar el movimiento de un objeto a lo largo del tiempo, la cámara tomará el valor medio de los píxeles de captura de movimiento. Luego, aplica esos valores medios a las alturas y anchos correspondientes de una imagen fija, que crea las rayas borrosas de la firma de la trayectoria del objeto. Calculando algunas variaciones en la intensidad de los píxeles, teóricamente, el movimiento se puede recrear.

    Como se dieron cuenta los investigadores, ese problema es relevante en muchas áreas:rayos X, por ejemplo, altura de captura, ancho, e información de profundidad de las estructuras anatómicas, pero utilizan una técnica similar de promediado de píxeles para colapsar la profundidad en una imagen 2-D. Cámaras de esquina:inventadas en 2017 por Freeman, Durand, y otros investigadores:capturan señales de luz reflejada alrededor de una escena oculta que llevan información bidimensional sobre la distancia de una persona a las paredes y los objetos. La técnica de promedio de píxeles luego colapsa esos datos en un video unidimensional, básicamente, mediciones de diferentes longitudes a lo largo del tiempo en una sola línea.

    Los investigadores construyeron un modelo general, basado en una red neuronal convolucional (CNN), un modelo de aprendizaje automático que se ha convertido en una potencia para las tareas de procesamiento de imágenes, que captura pistas sobre cualquier dimensión perdida en píxeles promediados.

    Sintetizar señales

    Entrenando, los investigadores alimentaron a la CNN con miles de pares de proyecciones y sus fuentes de alta dimensión, llamadas "señales". La CNN aprende patrones de píxeles en las proyecciones que coinciden con los de las señales. Alimentar la CNN es un marco llamado "codificador automático variacional, "que evalúa qué tan bien coinciden las salidas de CNN con sus entradas a través de alguna probabilidad estadística. A partir de eso, el modelo aprende un "espacio" de todas las señales posibles que podrían haber producido una proyección determinada. Esto crea, en esencia, un tipo de plano sobre cómo pasar de una proyección a todas las posibles señales coincidentes.

    Cuando se muestran proyecciones nunca antes vistas, el modelo toma nota de los patrones de píxeles y sigue los planos de todas las señales posibles que podrían haber producido esa proyección. Luego, sintetiza nuevas imágenes que combinan todos los datos de la proyección y todos los datos de la señal. Esto recrea la señal de alta dimensión.

    Para un experimento, los investigadores recopilaron un conjunto de datos de 35 videos de 30 personas caminando en un área específica. Colapsaron todos los fotogramas en proyecciones que usaron para entrenar y probar el modelo. De un conjunto de seis proyecciones invisibles, el modelo recreó con precisión 24 cuadros de la marcha de la persona, hasta la posición de sus piernas y el tamaño de la persona mientras caminaba hacia o alejándose de la cámara. El modelo parece aprender por ejemplo, que los píxeles que se vuelven más oscuros y más anchos con el tiempo probablemente correspondan a una persona que se acerca a la cámara.

    "Es casi como por arte de magia que podamos recuperar este detalle, "Balakrishnan dice.

    Los investigadores no probaron su modelo en imágenes médicas. Pero ahora están colaborando con colegas de la Universidad de Cornell para recuperar información anatómica 3-D de imágenes médicas 2-D, como radiografías, sin costos adicionales, lo que puede permitir imágenes médicas más detalladas en los países más pobres. Los médicos en su mayoría prefieren las exploraciones en 3-D, como los capturados con tomografías computarizadas, porque contienen información médica mucho más útil. Pero las tomografías computarizadas son generalmente difíciles y costosas de adquirir.

    "Si podemos convertir los rayos X en tomografías computarizadas, eso cambiaría un poco las reglas del juego, ", Dice Balakrishnan." Podrías simplemente tomar una radiografía y pasarla a través de nuestro algoritmo y ver toda la información perdida ".

    Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias sobre la investigación del MIT, innovación y docencia.




    © Ciencia https://es.scienceaq.com