El modelo es capaz de aprender características que codifican bien el contenido semántico de las imágenes. Dada una consulta de imagen (imagen a la izquierda), el modelo puede recuperar imágenes que son semánticamente similares (representan el mismo tipo de objeto), aunque pueden ser visualmente diferentes (diferentes colores, fondos o composiciones). Crédito:arXiv:1807.02110 [cs.CV]
Investigadores de la Universitat Autonoma de Barcelona, Universidad Carnegie Mellon e Instituto Internacional de Tecnología de la Información, Hyderabad, India, han desarrollado una técnica que podría permitir que los algoritmos de aprendizaje profundo aprendan las características visuales de las imágenes de una manera auto-supervisada, sin necesidad de anotaciones por parte de investigadores humanos.
Para lograr resultados notables en tareas de visión por computadora, Los algoritmos de aprendizaje profundo deben entrenarse en conjuntos de datos anotados a gran escala que incluyen información extensa sobre cada imagen. Sin embargo, recopilar y anotar manualmente estas imágenes requiere una gran cantidad de tiempo, recursos, y esfuerzo humano.
"Nuestro objetivo es brindar a las computadoras la capacidad de leer y comprender información textual en cualquier tipo de imagen en el mundo real, "dice Dimosthenis Karatzas, uno de los investigadores que realizó el estudio, en una entrevista con Tech Xplore .
Los humanos usan información textual para interpretar todas las situaciones que se les presentan, así como para describir lo que sucede a su alrededor o en una imagen en particular. Los investigadores ahora están tratando de brindar capacidades similares a las máquinas, ya que esto reduciría enormemente la cantidad de recursos gastados en anotar grandes conjuntos de datos.
En su estudio, Karatzas y sus colegas diseñaron modelos computacionales que unen información textual sobre imágenes con la información visual contenida en ellas, utilizando datos de Wikipedia u otras plataformas en línea. Luego utilizaron estos modelos para entrenar algoritmos de aprendizaje profundo sobre cómo seleccionar buenas características visuales que describan semánticamente las imágenes.
Como en otros modelos basados en redes neuronales convolucionales (CNN), las funciones se aprenden de un extremo a otro, con diferentes capas que aprenden automáticamente a enfocarse en diferentes cosas, que van desde detalles a nivel de píxel en las primeras capas hasta características más abstractas en las últimas.
El modelo desarrollado por Karatzas y sus colegas, sin embargo, no requiere anotaciones específicas para cada imagen. En lugar de, el contexto textual donde se encuentra la imagen (por ejemplo, un artículo de Wikipedia) actúa como señal de supervisión.
En otras palabras, la nueva técnica creada por este equipo de investigadores proporciona una alternativa a los algoritmos totalmente no supervisados, que utiliza elementos no visuales en correlación con las imágenes, actuando como fuente de formación autodirigida.
"Esto resulta ser una forma muy eficaz de aprender a representar imágenes en una computadora, sin requerir anotaciones explícitas (etiquetas sobre el contenido de las imágenes) que requieren mucho tiempo y esfuerzo manual para generar, "explica Karatzas." Estas nuevas representaciones de imágenes, aprendido de forma autodirigida, son lo suficientemente discriminatorios para ser utilizados en una variedad de tareas típicas de visión por computadora, como la clasificación de imágenes y la detección de objetos ".
La metodología desarrollada por los investigadores permite el uso de texto como señal de supervisión para aprender características útiles de la imagen. Esto podría abrir nuevas posibilidades para el aprendizaje profundo, permitir que los algoritmos aprendan características de imagen de buena calidad sin la necesidad de anotaciones, simplemente analizando fuentes textuales y visuales que están disponibles en línea.
Al entrenar sus algoritmos con imágenes de Internet, los investigadores destacaron el valor del contenido que está disponible en línea.
"Nuestro estudio demostró que la Web se puede explotar como un conjunto de datos ruidosos para aprender representaciones útiles sobre el contenido de las imágenes, "dice Karatzas." No somos los primeros, ni los únicos que insinuaban en esta dirección, pero nuestro trabajo ha demostrado una forma específica de hacerlo, haciendo uso de los artículos de Wikipedia como datos de los que aprender ".
En estudios futuros, Karatzas y sus colegas intentarán identificar las mejores formas de utilizar la información textual incrustada en imágenes para describir y responder automáticamente preguntas sobre el contenido de la imagen.
"Continuaremos nuestro trabajo sobre la integración conjunta de información textual y visual, buscando formas novedosas de realizar la recuperación semántica tocando información ruidosa disponible en la Web y las redes sociales, "agrega Karatzas.
© 2018 Tech Xplore