Revolucionando la generación de imágenes a través de IA:convertir texto en imágenes

Imagen generada a partir del texto "Verduras felices esperando la cena". Crédito:Universidad Ludwig Maximilian de Múnich

¿Crear imágenes a partir de texto en segundos y hacerlo con una tarjeta gráfica convencional y sin supercomputadoras? Por fantástico que parezca, esto es posible gracias al nuevo modelo Stable Diffusion AI. El algoritmo subyacente fue desarrollado por Machine Vision &Learning Group dirigido por el Prof. Björn Ommer (LMU Munich).

"Incluso para los laicos que no han sido bendecidos con talento artístico y sin conocimientos informáticos especiales ni hardware informático, el nuevo modelo es una herramienta eficaz que permite a las computadoras generar imágenes a pedido. Como tal, el modelo elimina una barrera para que la gente común exprese su creatividad. ", dice Ommer. Pero también hay beneficios para los artistas experimentados, que pueden usar Stable Diffusion para convertir rápidamente nuevas ideas en una variedad de borradores gráficos. Los investigadores están convencidos de que tales herramientas basadas en IA podrán expandir las posibilidades de generación de imágenes creativas con pincel y Photoshop tan fundamentalmente como el procesamiento de textos basado en computadora revolucionó la escritura con bolígrafos y máquinas de escribir.

En su proyecto, los científicos de la LMU contaron con el apoyo de la start-up Stability.Ai, en cuyos servidores se entrenó el modelo de IA. "Esta potencia informática adicional y los ejemplos de entrenamiento adicionales convirtieron nuestro modelo de IA en uno de los algoritmos de síntesis de imágenes más potentes", dice el científico informático.

La esencia de miles de millones de imágenes de entrenamiento

Un aspecto especial del enfoque es que, a pesar de toda la potencia del modelo entrenado, es tan compacto que se ejecuta en una tarjeta gráfica convencional y no requiere una supercomputadora como antes para la síntesis de imágenes. Con este fin, la inteligencia artificial destila la esencia de miles de millones de imágenes de entrenamiento en un modelo de IA de unos pocos gigabytes.

"Una vez que dicha IA haya entendido realmente qué constituye un automóvil o qué características son típicas de un estilo artístico, habrá captado precisamente estas características sobresalientes e idealmente debería poder crear más ejemplos, tal como los estudiantes en el taller de un viejo maestro pueden producir trabajar con el mismo estilo", explica Ommer. En la búsqueda del objetivo de los científicos de LMU de hacer que las computadoras aprendan a ver, es decir, a comprender el contenido de las imágenes, este es otro gran paso adelante, que avanza aún más en la investigación básica en aprendizaje automático y visión artificial.

El modelo entrenado se lanzó recientemente de forma gratuita bajo la licencia "CreativeML Open RAIL-M" para facilitar una mayor investigación y aplicación de esta tecnología de manera más amplia. "Estamos emocionados de ver lo que se construirá con los modelos actuales, así como también de ver qué otros trabajos surgirán de los esfuerzos de investigación abierta y colaborativa", dice el investigador doctoral Robin Rombach. + Explora más