StyleGAN-T: la generación de texto a imagen más rápida que produce resultados en menos de 0.1 segundos
En Resumen
StyleGAN-T es una nueva GAN para la generación de tex2image.
Esta GAN produce buenos resultados e incluso es bastante rápida (0.1 segundos para una imagen de 512×512).
La nueva arquitectura se basa en StyleGAN-XL, pero reevalúa los diseños del generador y el discriminador.
Seguramente habrá notado que las GAN ya no se discuten cuando surge el tema de la generación de imágenes. Después de modelos de difusión como Stable Diffusion surgieron, las GAN de alguna manera se retiraron a un segundo plano. Esto se debe a que son difíciles de entrenar y se tropiezan con frecuencia. El único beneficio de las GAN fue que, a diferencia de los modelos de difusión, producen una imagen en una sola ejecución (un "paso hacia adelante") en lugar de muchas ejecuciones.
Pero ahora ha entrado en escena un nuevo jugador de las GAN: EstiloGAN-T. Esta GAN para la generación de texto a imagen produce buenos resultados rápidamente, ya que solo toma 0.1 segundos para una imagen de 512 × 512. La nueva arquitectura se basa en StyleGAN-XL, pero reevalúa los diseños del generador y el discriminador y emplea CLIP para la alineación de mensajes de texto y gráficos generados.
Artículo relacionado: VToonify: un modelo de IA en tiempo real para generar videos de retratos artísticos |
En general, StyleGAN-T ahora crea texto a imagen de forma más rápida y precisa que otras GAN. Sin embargo, GAN sigue siendo terrible y la calidad del modelo SD de tamaño completo está obviamente fuera de discusión. Pero todo dependerá de la capacidad de producir imágenes de muy alta calidad a partir de texto en menos de un segundo al año. Además, se ubicará en algún lugar entre GAN y el modelo de difusión.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.