Crédito:Pixabay/CC0 Dominio público
Los humanos percibimos el mundo a través de diferentes sentidos:vemos, sentimos, oímos, gustamos y olemos. Los diferentes sentidos con los que percibimos son múltiples canales de información, también conocidos como multimodales. ¿Significa esto que lo que percibimos puede verse como multimedia?
Xue Wang, Ph. D. Candidato en LIACS, traduce la percepción en multimedia y utiliza Inteligencia Artificial (IA) para extraer información de procesos multimodales, similar a cómo el cerebro procesa la información. En su investigación, ha probado los procesos de aprendizaje de la IA de cuatro maneras diferentes.
Poner palabras en vectores
Primero, Xue analizó el aprendizaje integrado de palabras:la traducción de palabras en vectores. Un vector es una cantidad con dos propiedades, a saber, una dirección y una magnitud. En concreto, esta parte trata de cómo se puede mejorar la clasificación de la información. Xue propuso el uso de un nuevo modelo de IA que vincula palabras a imágenes, lo que facilita la clasificación de palabras. Al probar el modelo, un observador podría interferir si la IA hiciera algo mal. La investigación muestra que este modelo funciona mejor que un modelo usado anteriormente.
Mirando las subcategorías
Un segundo foco de la investigación son las imágenes acompañadas de otra información. Para este tema, Xue observó el potencial del etiquetado de subcategorías, también conocido como etiquetado detallado. Usó un modelo de IA específico para facilitar la categorización de imágenes con poco texto alrededor. Combina etiquetas gruesas, que son categorías generales, con etiquetas detalladas, las subcategorías. El enfoque es efectivo y útil para estructurar categorizaciones fáciles y difíciles.
Encontrar relaciones entre imágenes y texto
En tercer lugar, Xue investigó la asociación de imagen y texto. Un problema de este tema es que la transformación de esta información no es lineal, lo que significa que puede ser difícil de medir. Xue encontró una solución potencial para este problema:usó una transformación basada en kernel. Kernel representa una clase específica de algoritmos en el aprendizaje automático. Con el modelo usado, ahora es posible que la IA vea la relación de significado entre las imágenes y el texto.
Encontrar contraste en imágenes y texto
Por último, Xue se centró en imágenes acompañadas de texto. En esta parte, AI tuvo que observar los contrastes entre palabras e imágenes. El modelo de IA realizó una tarea llamada puesta a tierra de frases, que es la vinculación de sustantivos en leyendas de imágenes con partes de la imagen. No había ningún observador que pudiera interferir en esta tarea. La investigación mostró que la IA puede vincular regiones de imágenes con sustantivos con una precisión promedio para este campo de investigación.
La percepción de la inteligencia artificial
Esta investigación ofrece una gran contribución al campo de la información multimedia:vemos que la IA puede clasificar palabras, categorizar imágenes y vincular imágenes a texto. La investigación adicional puede hacer uso de los métodos propuestos por Xue y, con suerte, conducirá a una mejor comprensión de la percepción multimedia de la IA.