Informe de noticias Tecnología
19 de septiembre de 2023

El modelo Würstchen V2 convence Stable Diffusion XL con velocidad impresionante para generar imágenes de alta resolución

Un tweet reciente del autor de un artículo titulado “Würstchen” (salchicha en alemán), ha captado la atención tanto de entusiastas como de expertos. El tweet compartió los intrigantes resultados de generar imágenes utilizando el nuevo modelo Würstchen V2.

El modelo Würstchen V2 convence Stable Diffusion XL con velocidad impresionante para generar imágenes de alta resolución
Relacionado:: Midjourney 5.2 y Stable Diffusion SDXL 0.9 Actualizaciones para la generación creativa de texto a imagen

Würstchen es rápido y eficiente, genera imágenes más rápido que modelos como Stable Diffusion XL mientras usa menos memoria. También ha reducido los costos de capacitación, ya que Würstchen v1 requiere solo 9,000 horas de GPU de capacitación en resoluciones de 512 × 512, en comparación con las 150,000 XNUMX horas de GPU invertidas en Stable Diffusion 1.4. Esta reducción de costos de 16 veces no solo beneficia a los investigadores que realizan nuevos experimentos, sino que también abre la puerta a que más organizaciones entrenen dichos modelos. Würstchen v2 utilizó 24,602 horas de GPU, lo que lo hace 6 veces más barato que SD1.4, que solo se entrenó a 512×512.

Una característica destacada que llamó inmediatamente la atención de la comunidad de IA es la impresionante velocidad de Würstchen V2. Según el autor, generar cuatro imágenes de 1024×2048 utilizando este modelo lleva sólo 7 segundos. Para poner esto en perspectiva, el modelo SDXL requeriría 40 segundos comparativamente lentos para lograr la misma tarea.

Würstchen V1, presentado anteriormente, comparte su base con SDXL como Latent modelo de difusión pero incorpora una arquitectura Unet más rápida. Mientras la comunidad anticipa ansiosamente más detalles sobre la arquitectura de Würstchen V2, la velocidad mejorada por sí sola lo marca como un desarrollo digno de mención.

Würstchen V2 es un modelo de difusión que funciona en un espacio latente de imágenes altamente comprimido, reduciendo los costos computacionales para entrenamiento e inferencia en órdenes de magnitud. Emplea un diseño novedoso que logra una compresión espacial de 42x, una hazaña nunca antes vista. Würstchen emplea una compresión de dos etapas, Etapa A y Etapa B, que decodifican imágenes comprimidas en un espacio de píxeles. Un tercer modelo, la Etapa C, se aprende en el espacio latente altamente comprimido, lo que requiere fracciones de la computación utilizada para los modelos actuales de alto rendimiento y, al mismo tiempo, permite una inferencia más barata y más rápida.

Würstchen V2 consta de dos etapas de difusión:

  • Etapa A: Esta etapa implica la difusión condicionada por texto y cuenta con la asombrosa cifra de mil millones de parámetros. La aceleración aquí se logra mediante técnicas de compresión ultraalta. En particular, en lugar del tamaño de código oculto de 1x128x128, como se ve en SDXL, Würstchen V4 opera inicialmente con una resolución de 2x24x24. Esto significa menos píxeles pero más canales, lo que resulta en un aumento significativo de la velocidad.
  • Etapa B: Se trata de un modelo de difusión dotado de 600 millones de parámetros, encargado de descomprimir la imagen desde 24×24 hasta una resolución de 128×128.

Completar el proceso es un decodificador con 20 millones de parámetros que transforma el código oculto en una imagen renderizada.

La ventaja práctica que destaca inmediatamente es la notable velocidad del Würstchen V2. Funciona a una velocidad entre 2 y 2.5 veces más rápida que la SDXL, un avance notable en el campo de Generación de imágenes de IA.

Como ocurre con cualquier innovación tecnológica, puede haber compensaciones. En términos de calidad de imagen, algunos expertos sugieren una ligera pérdida, aunque aún se espera una comparación exhaustiva y honesta que aporte pruebas concretas.

A continuación se muestran ejemplos de conversión de texto a imagen generados:

Leer más temas relacionados:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más

Los fundadores de Samourai Wallet son acusados ​​de facilitar 2 millones de dólares en acuerdos en la Darknet

La detención de los fundadores de Samourai Wallet representa un revés notable para la industria, lo que subraya la persistente...

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Pantera Capital invierte en TON Blockchain y expresa confianza en el potencial de Telegram para ampliar la accesibilidad a las criptomonedas
Empresa Informe de noticias Tecnología
Pantera Capital invierte en TON Blockchain y expresa confianza en el potencial de Telegram para ampliar la accesibilidad a las criptomonedas
2 de mayo de 2024
Mitosis recauda 7 millones de dólares en financiación de Amber Group y Foresight Ventures para avanzar en su protocolo de liquidez modular
Empresa Informe de noticias Tecnología
Mitosis recauda 7 millones de dólares en financiación de Amber Group y Foresight Ventures para avanzar en su protocolo de liquidez modular
2 de mayo de 2024
Galxe se asocia con Jambo para ampliar la accesibilidad global a Web3
Empresa Informe de noticias Tecnología
Galxe se asocia con Jambo para ampliar la accesibilidad global a Web3
2 de mayo de 2024
Med-Gemini de Google está listo para dar una ventaja a GPT-4 Con su desempeño superior en atención médica
AI Wiki Noticias Software Tecnología
Med-Gemini de Google está listo para dar una ventaja a GPT-4 Con su desempeño superior en atención médica
2 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.