El modelo Würstchen V2 convence Stable Diffusion XL con velocidad impresionante para generar imágenes de alta resolución
Un tweet reciente del autor de un artículo titulado “Würstchen” (salchicha en alemán), ha captado la atención tanto de entusiastas como de expertos. El tweet compartió los intrigantes resultados de generar imágenes utilizando el nuevo modelo Würstchen V2.
Relacionado:: Midjourney 5.2 y Stable Diffusion SDXL 0.9 Actualizaciones para la generación creativa de texto a imagen |
Würstchen es rápido y eficiente, genera imágenes más rápido que modelos como Stable Diffusion XL mientras usa menos memoria. También ha reducido los costos de capacitación, ya que Würstchen v1 requiere solo 9,000 horas de GPU de capacitación en resoluciones de 512 × 512, en comparación con las 150,000 XNUMX horas de GPU invertidas en Stable Diffusion 1.4. Esta reducción de costos de 16 veces no solo beneficia a los investigadores que realizan nuevos experimentos, sino que también abre la puerta a que más organizaciones entrenen dichos modelos. Würstchen v2 utilizó 24,602 horas de GPU, lo que lo hace 6 veces más barato que SD1.4, que solo se entrenó a 512×512.
Würstchen V2 es un modelo de difusión que funciona en un espacio latente de imágenes altamente comprimido, reduciendo los costos computacionales para entrenamiento e inferencia en órdenes de magnitud. Emplea un diseño novedoso que logra una compresión espacial de 42x, una hazaña nunca antes vista. Würstchen emplea una compresión de dos etapas, Etapa A y Etapa B, que decodifican imágenes comprimidas en un espacio de píxeles. Un tercer modelo, la Etapa C, se aprende en el espacio latente altamente comprimido, lo que requiere fracciones de la computación utilizada para los modelos actuales de alto rendimiento y, al mismo tiempo, permite una inferencia más barata y más rápida.
Würstchen V2 consta de dos etapas de difusión:
- Etapa A: Esta etapa implica la difusión condicionada por texto y cuenta con la asombrosa cifra de mil millones de parámetros. La aceleración aquí se logra mediante técnicas de compresión ultraalta. En particular, en lugar del tamaño de código oculto de 1x128x128, como se ve en SDXL, Würstchen V4 opera inicialmente con una resolución de 2x24x24. Esto significa menos píxeles pero más canales, lo que resulta en un aumento significativo de la velocidad.
- Etapa B: Se trata de un modelo de difusión dotado de 600 millones de parámetros, encargado de descomprimir la imagen desde 24×24 hasta una resolución de 128×128.
Completar el proceso es un decodificador con 20 millones de parámetros que transforma el código oculto en una imagen renderizada.
La ventaja práctica que destaca inmediatamente es la notable velocidad del Würstchen V2. Funciona a una velocidad entre 2 y 2.5 veces más rápida que la SDXL, un avance notable en el campo de Generación de imágenes de IA.
Como ocurre con cualquier innovación tecnológica, puede haber compensaciones. En términos de calidad de imagen, algunos expertos sugieren una ligera pérdida, aunque aún se espera una comparación exhaustiva y honesta que aporte pruebas concretas.
A continuación se muestran ejemplos de conversión de texto a imagen generados:
Leer más temas relacionados:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.