Área de Investigación de NVIDIA Muestra que la Demostración de Arte de IA GauGAN Ahora Responde a las Palabras

Una imagen que vale mil palabras ahora solo toma tres o cuatro palabras para crear, gracias a GauGAN2, la última versión de la popular demostración de pintura de IA del Área de Investigación de NVIDIA.

El modelo de deep learning detrás de GauGAN permite a cualquiera canalizar su imaginación en obras maestras fotorrealistas, y es más fácil que nunca. Simplemente escriba una frase como «atardecer en la playa» y la IA generará la escena en tiempo real. Agregue un adjetivo adicional como “puesta de sol en una playa rocosa” o cambie “puesta de sol” por “tarde” o “día lluvioso” y el modelo, basado en redes generativas de confrontación, modifica instantáneamente la imagen.

Con solo presionar un botón, los usuarios pueden generar un mapa de segmentación, un esquema de alto nivel que muestra la ubicación de los objetos en la escena. A partir de ahí, pueden cambiar al dibujo, modificando la escena con bocetos aproximados usando etiquetas como cielo, árbol, roca y río, lo que permite que el pincel inteligente incorpore estos garabatos en imágenes asombrosas.

La nueva función de texto a imagen de GauGAN2 ahora se puede experimentar en las demostraciones de IA de NVIDIA, donde los visitantes del sitio pueden experimentar la IA a través de las últimas demostraciones de NVIDIA Research. Con la versatilidad de las indicaciones de texto y los bocetos, GauGAN2 permite a los usuarios crear y personalizar escenas más rápidamente y con un control más preciso.

Una IA de Pocas Palabras

GauGAN2 combina el mapeo de segmentación, la pintura y la generación de texto a imagen en un solo modelo, lo que lo convierte en una poderosa herramienta para crear arte fotorrealista con una combinación de palabras y dibujos.

La demostración es una de las primeras en combinar múltiples modalidades (texto, segmentación semántica, boceto y estilo) dentro de un solo framework GAN. Esto hace que sea más rápido y más fácil convertir la visión de un artista en una imagen de alta calidad generada por IA.

En lugar de tener que extraer cada elemento de una escena imaginada, los usuarios pueden ingresar una frase breve para generar rápidamente las características clave y el tema de una imagen, como una cadena montañosa cubierta de nieve. Este punto de partida se puede personalizar con bocetos para hacer una montaña específica más alta o agregar un par de árboles en primer plano o nubes en el cielo.

No solo crea imágenes realistas, los artistas también pueden usar la demostración para representar paisajes de otro mundo.

Imagínese, por ejemplo, recrear un paisaje del icónico planeta de Tatooine en la franquicia Star Wars, que tiene dos soles. Todo lo que se necesita es el texto «sol de las colinas del desierto» para crear un punto de partida, después del cual los usuarios pueden dibujar rápidamente en un segundo sol.

Es un proceso iterativo, donde cada palabra que el usuario escribe en el cuadro de texto agrega más a la imagen creada por IA.

El modelo de IA detrás de GauGAN2 se entrenó en 10 millones de imágenes de paisajes de alta calidad utilizando la supercomputadora NVIDIA Selene, un sistema NVIDIA DGX SuperPOD que se encuentra entre las 10 supercomputadoras más poderosas del mundo. Los investigadores utilizaron una red neuronal que aprende la conexión entre las palabras y las imágenes a las que corresponden, como «invierno», «niebla» o «arco iris».

En comparación con los modelos de última generación específicamente para aplicaciones de texto a imagen o segmentación de mapa a imagen, la red neuronal detrás de GauGAN2 produce una mayor variedad y calidad de imágenes.

La demostración de investigación de GauGAN2 ilustra las posibilidades futuras de poderosas herramientas de generación de imágenes para artistas. Un ejemplo es la aplicación NVIDIA Canvas, que se basa en la tecnología GauGAN y está disponible para descargar para cualquier persona con una GPU NVIDIA RTX.

El Área de Investigación de NVIDIA cuenta con más de 200 científicos en todo el mundo, enfocados en áreas que incluyen inteligencia artificial, visión por computadora, autos autónomos, robótica y gráficos. Obtenga más información sobre su trabajo.