Marzo 20, 2023

El nuevo modelo de texto a imagen GigaGAN puede generar imágenes 4K en 3.66 s

Publicado: 20 de marzo de 2023 a las 4:10 am Actualizado: 20 de marzo de 2023 a las 4:11 am

En Resumen

Los investigadores han desarrollado un nuevo modelo de texto a imagen llamado GigaGAN que puede generar imágenes 4K en 3.66 segundos.

Se basa en el marco GAN (red adversarial generativa), que es un tipo de red neural que pueden aprender a generar datos similares a un conjunto de datos de entrenamiento. GigaGAN es capaz de generar imágenes de 512 px en 0.13 segundos, 10 veces más rápido que el modelo de última generación anterior, y tiene un espacio latente desenredado, continuo y controlable.

También se puede utilizar para entrenar a un upsampler eficiente y de mayor calidad.

Los investigadores han desarrollado un nuevo modelo de texto a imagen llamado GigaGAN que puede generar Imágenes 4K en 3.66 segundos. Esta es una mejora importante con respecto a los modelos de texto a imagen existentes, que pueden tardar minutos o incluso horas en generar una sola imagen.

El nuevo modelo de texto a imagen GigaGAN puede generar imágenes 4K a 3.66 s

GigaGAN se basa en el marco GAN (red adversarial generativa), que es un tipo de red neuronal que puede aprender a generar datos similares a un conjunto de datos de entrenamiento. Las GAN se han utilizado para generar imágenes realistas de rostros, paisajes e incluso imágenes de Street View.

Más información: Más de 5 modelos de IA de texto a imagen más esperados de 2023

El nuevo modelo ha sido entrenado en un conjunto de datos de mil millones de imágenes, que es mucho más grande que los conjuntos de datos utilizados para entrenar modelos anteriores de texto a imagen. Como resultado, GigaGAN puede generar imágenes de 1 px en 512 segundos, que es más de 0.13 veces más rápido que el modelo anterior de texto a imagen de última generación.

Además, GigaGAN viene con un espacio latente desenredado, continuo y controlable. Esto significa que GigaGAN puede generar imágenes que tienen una variedad de estilos diferentes y que las imágenes generadas se pueden controlar hasta cierto punto. Por ejemplo, GigaGAN puede generar imágenes que conservan el diseño de la entrada de texto, lo cual es importante para las aplicaciones, por ejemplo, al generar imágenes de diseños de productos a partir de descripciones de texto.

GigaGAN también se puede utilizar para entrenar un upsampler eficiente y de mayor calidad. Esto se puede aplicar a imágenes reales o a salidas de otros modelos de texto a imagen.

Una rama de codificación de texto, una red de mapeo de estilos, una red de síntesis multiescala y una atención estable y una selección de kernel adaptable son parte del generador GigaGAN. Los desarrolladores comienzan la rama de codificación de texto extrayendo incrustaciones de texto con un modelo CLIP entrenado previamente y capas de atención aprendidas T. De manera similar a EstiloGAN, la incrustación se pasa a la red de mapeo de estilo M, que genera el vector de estilo w. Para generar una pirámide de imágenes, la red de síntesis ahora usa el código de estilo como modulación y las incrustaciones de texto como atención. Además, los desarrolladores introducen la selección de kernel adaptativa de muestra para seleccionar kernels de convolución de forma adaptativa en función del condicionamiento del texto de entrada.

El discriminador, al igual que el generador, tiene dos ramas para el procesamiento de la imagen y el condicionamiento del texto. La rama de texto, como el generador, procesa el texto. La rama de imagen recibe una pirámide de imagen y tiene la tarea de hacer predicciones independientes para cada escala de imagen. Además, las predicciones se realizan en todas las escalas de capa de submuestreo subsiguientes. Las pérdidas adicionales también se utilizan para fomentar la convergencia efectiva.

Como se muestra en la cuadrícula de interpolación, GigaGAN permite una interpolación fluida entre indicaciones. Las cuatro esquinas se crean utilizando la misma z latente pero diferentes indicaciones de texto.

Debido a que GigaGAN conserva un espacio latente desenredado, los desarrolladores pueden combinar el estilo tosco de una muestra con el estilo refinado de otra. GigaGAN también puede controlar el estilo directamente con indicaciones de texto.

Leer más artículos relacionados:

Tags:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.

Más artículos

Damir Yalalov