• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Los investigadores enseñan a las computadoras cómo nombrar imágenes "pensando"
    Método:

    - Preprocesamiento:

    1. Las imágenes cambian de tamaño a una resolución fija.

    2. Se aplica la normalización del color para eliminar las variaciones de iluminación.

    - Extracción de funciones:

    1. Las redes neuronales convolucionales profundas (CNN) se utilizan para extraer características potentes y discriminativas de las imágenes.

    2. La arquitectura CNN se entrena en un gran conjunto de datos de imágenes con etiquetas de texto asociadas.

    - Generación de subtítulos:

    1. Se utiliza una red neuronal recurrente (RNN) para generar subtítulos para imágenes en función de las características extraídas.

    2. El RNN está entrenado para maximizar la probabilidad de que el título sea correcto dadas las características de la imagen.

    - Modelo de lenguaje:

    1. Se utiliza un modelo de lenguaje adicional para mejorar la corrección gramatical y la fluidez de los subtítulos generados.

    2. El modelo de lenguaje se entrena con un gran corpus de datos de texto.

    Algoritmo:

    1. Entrada:

    - Imagen

    - Modelo CNN previamente entrenado

    - Modelo RNN previamente entrenado

    - Modelo de lenguaje

    2. Pasos:

    1. Cambie el tamaño y normalice el color de la imagen de entrada.

    2. Extraiga características profundas de la imagen utilizando el modelo CNN.

    3. Genere un título inicial para la imagen utilizando el modelo RNN.

    4. Refine el título aplicando el modelo de lenguaje.

    5. Salida:

    - Un título en lenguaje natural para la imagen de entrada.

    Conjuntos de datos:

    - COCO (Objetos comunes en contexto):un conjunto de datos a gran escala de imágenes con anotaciones de objetos y leyendas de texto.

    - Flickr8k:un conjunto de datos de 8.000 imágenes con subtítulos escritos por humanos.

    - Flickr30k:un conjunto de datos más grande con 30.000 imágenes y subtítulos escritos por humanos.

    Evaluación:

    - Métricas:

    - BLEU (estudio de evaluación bilingüe):mide la similitud entre los subtítulos generados y los subtítulos de referencia escritos por humanos.

    - METEOR (Métrica para la evaluación de la traducción con ordenamiento explícito):Otra medida de similitud entre los subtítulos generados y los de referencia.

    - CIDEr (Evaluación de descripción de imágenes basada en consenso):una métrica que tiene en cuenta el consenso entre múltiples jueces humanos.

    © Ciencia https://es.scienceaq.com