Predicciones de muestra de ColorUNet en el conjunto de validación, para imágenes de entrada suaves. Las imágenes de salida de ColorUNet son más coloridas que las imágenes reales (originales). El ejemplo de abajo es una fotografía antigua con tonos desgastados. Crédito:Billaut, De Rochemonteix nd Thibault.
Un equipo de investigadores de la Universidad de Stanford ha desarrollado recientemente un método de clasificación de CNN para colorear imágenes en escala de grises. La herramienta que idearon llamado ColorUNet, se inspira en U-Net, una red totalmente convolucional para la segmentación de imágenes.
"Como parte de la clase de Visión por Computadora de Stanford, trabajamos en este proyecto durante varios meses, "Vincent Billaut, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Nuestro objetivo era reproducir resultados de vanguardia utilizando un modelo ligero, en lugar de mejorar los modelos existentes aumentando el tamaño del conjunto de entrenamiento o su complejidad computacional, un enfoque muy común en problemas CV. Queríamos que nuestros resultados fueran fáciles de evaluar y visualmente atractivos, porque además de aplicaciones útiles e impactantes, CV también se trata de cosas interesantes ".
Billaut y sus colegas decidieron abordar la tarea de colorear automáticamente imágenes en escala de grises desde el ángulo de clasificación, trabajando con un conjunto finito de posibilidades de color. Su modelo siguió una función de pérdida y predicción, favoreciendo las imágenes coloridas sobre las realistas.
"En lugar de intentar predecir los colores directamente mediante una tarea de regresión, dividimos todos los colores en contenedores, con una tarea de clasificación, "Marc Thibault, otro investigador involucrado en el estudio, dijo a TechXplore. "Formular el problema como una tarea de clasificación nos permite tener un mejor control sobre qué tan colorido queremos que se vea nuestro resultado, ajustando cómo predecimos un color a partir de la salida de la red ".
La arquitectura de ColorUNet. Estructura de ColorUNet. Los investigadores utilizan 3 tipos de células:DownConv Cells que utilizan 2 capas convolucionales apiladas para tener un gran campo perceptivo y un maxpooling para reducir la resolución de la imagen, Celdas UpConv que usan 1 capa de conversión transpuesta para muestrear la imagen y luego 2 capas convolucionales, y una celda de salida que es una versión simplificada de la celda UpConv. Crédito:Billaut, De Rochemonteix y Thibault.
Los investigadores entrenaron su modelo en subconjuntos de los conjuntos de datos SUN e ImageNet, que contienen imágenes de paisajes. La arquitectura de red neuronal que desarrollaron permitió que su algoritmo de aprendizaje profundo extrajera información local y global de cada imagen en escala de grises.
"El algoritmo puede decidir el color de una región en función de su propio aspecto, así como en el contexto que lo rodea, ", Dijo Thibault." En general, Es crucial que las técnicas de IA para la toma de decisiones en la vida real aprovechen tanto la identificación de sujetos localmente precisa como la comprensión del contexto más amplio ".
Uno de los objetivos clave del estudio fue desarrollar una arquitectura liviana que fuera escalable, pero también funcionó tan bien como modelos de última generación en tareas de coloración. Lograr esto, los investigadores limitaron la tarea a imágenes de paisajes naturales.
Imagen de resonancia magnética de código abierto que podría ser procesada por ColorUNet en el futuro. Crédito:Billaut, De Rochemonteix y Thibault.
"Más importante, utilizamos una arquitectura U-Net para mejorar el rendimiento y reducir la complejidad del modelo, "Matthieu de Rochemonteix, uno de los investigadores que realizó el estudio, dijo a TechXplore. "ColorUnet se acerca al rendimiento de vanguardia en la subtarea seleccionada. Su arquitectura permite un entrenamiento más rápido y estable, sin sacrificar la profundidad y el poder representativo del modelo ".
Cuando se evalúa en fotografías de paisajes, ColorUNet logró resultados muy prometedores, con aumento de datos mejorando significativamente el rendimiento y la solidez del modelo. Los investigadores también aplicaron el modelo a la coloración de video, proponer una forma de suavizar las predicciones de color en los fotogramas sin tener que entrenar una red recurrente para entradas secuenciales.
"La principal contribución de esta técnica es la capacidad de un algoritmo para comprender lo que está sucediendo en una imagen a escala local, alimentándolo con el contexto completo de la imagen, ", Dijo Thibault." Si bien mostramos su eficiencia en la coloración de imágenes, también estamos trabajando en otras aplicaciones, especialmente en el dominio médico. Dentro del Laboratorio Gevaert en Stanford, Hemos aplicado este método a la detección de tumores en pacientes con glioma (cáncer de cerebro) basado en resonancias magnéticas. La investigación está floreciendo en este campo, con cada vez más técnicas CV que se aplican a la imagen médica ".
© 2018 Science X Network