Informe de notícies Tecnologia
Setembre 19, 2023

El model Würstchen V2 guanya Stable Diffusion XL amb una velocitat impressionant per generar imatges d'alta resolució

Un tuit recent de l'autor d'un article titulat "Würstchen" (en alemany per "salsitxa") ha captat l'atenció tant d'entusiastes com d'experts. El tuit va compartir els resultats intrigants de la generació d'imatges amb el nou model Würstchen V2.

El model Würstchen V2 guanya Stable Diffusion XL amb una velocitat impressionant per generar imatges d'alta resolució
connex: Midjourney 5.2 i Stable Diffusion Actualitzacions de SDXL 0.9 per a la generació creativa de text a imatge

Würstchen és ràpid i eficient i genera imatges més ràpidament que models com ara Stable Diffusion XL mentre s'utilitza menys memòria. També ha reduït els costos d'entrenament, amb Würstchen v1 que només requereix 9,000 hores de formació de GPU amb resolucions de 512 × 512, en comparació amb les 150,000 hores de GPU invertides en Stable Diffusion 1.4. Aquesta reducció de costos de 16 vegades no només beneficia els investigadors que realitzen nous experiments, sinó que també obre la porta a més organitzacions per formar aquests models. Würstchen v2 va utilitzar 24,602 hores de GPU, fet que el va fer 6 vegades més barat que SD1.4, que només es va entrenar a 512 × 512.

Una característica destacada que va cridar immediatament l'atenció de la comunitat d'IA és la impressionant velocitat de Würstchen V2. Segons l'autor, generar quatre imatges de 1024×2048 amb aquest model només triga 7 segons. Per posar-ho en perspectiva, el model SDXL requeriria uns 40 segons relativament lents per aconseguir la mateixa tasca.

Würstchen V1, presentat anteriorment, comparteix la seva fundació amb SDXL com a Latent Model de difusió però incorpora una arquitectura Unet més ràpida. Com que la comunitat espera amb impaciència més detalls sobre l'arquitectura de Würstchen V2, només la velocitat millorada el marca com un desenvolupament digne de menció.

Würstchen V2 és un model de difusió que funciona en un espai latent d'imatges altament comprimit, reduint els costos computacionals d'entrenament i inferència per ordres de magnitud. Utilitza un disseny nou que aconsegueix una compressió espacial de 42x, una gesta no vista anteriorment. Würstchen utilitza una compressió de dues etapes, Etapa A i Etapa B, que descodifica les imatges comprimides de nou a l'espai de píxels. Un tercer model, l'etapa C, s'aprèn a l'espai latent altament comprimit, que requereix fraccions de càlcul utilitzades per als models actuals de millor rendiment alhora que permet una inferència més barata i ràpida.

Würstchen V2 consta de dues etapes de difusió:

  • Etapa A: Aquesta etapa implica una difusió condicionada per text i compta amb un sorprenent mil milions de paràmetres. L'acceleració aquí s'aconsegueix mitjançant tècniques de compressió ultra alta. Notablement, en lloc de la mida del codi ocult de 1x128x128, com es veu a SDXL, Würstchen V4 funciona inicialment amb una resolució de 2x24x24. Això significa menys píxels però més canals, el que resulta en un augment de velocitat important.
  • Fase B: Es tracta d'un model de difusió equipat amb 600 milions de paràmetres, encarregat de descomprimir la imatge de 24×24 a una resolució de 128×128.

Completa el procés un descodificador amb 20 milions de paràmetres que transforma el codi ocult en una imatge renderitzada.

El benefici pràctic que destaca immediatament és la notable velocitat de Würstchen V2. Funciona a una velocitat que és de 2 a 2.5 vegades més ràpida que SDXL, un avenç notable en el camp de Generació d'imatges d'IA.

Com amb qualsevol innovació tecnològica, pot haver-hi intercanvis. Pel que fa a la qualitat de la imatge, alguns experts suggereixen una lleugera pèrdua, tot i que encara s'espera una comparació exhaustiva i honesta per aportar proves concretes.

A continuació es mostren exemples de text a imatge generats:

Llegeix més temes relacionats:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Layer3 llançarà el testimoni L3 aquest estiu, destinant el 51% del subministrament total a la comunitat
mercats Informe de notícies Tecnologia
Layer3 llançarà el testimoni L3 aquest estiu, destinant el 51% del subministrament total a la comunitat
Pot 10, 2024
L'advertència final d'Edward Snowden als desenvolupadors de Bitcoin: "Fes de la privadesa una prioritat a nivell de protocol o arrisca a perdre-la
mercats Seguretat Wiki Software Històries i ressenyes Tecnologia
L'advertència final d'Edward Snowden als desenvolupadors de Bitcoin: "Fes de la privadesa una prioritat a nivell de protocol o arrisca a perdre-la
Pot 10, 2024
Ethereum Layer 2 Network Mint, impulsat per l'optimisme, llançarà la seva xarxa principal el 15 de maig
Informe de notícies Tecnologia
Ethereum Layer 2 Network Mint, impulsat per l'optimisme, llançarà la seva xarxa principal el 15 de maig
Pot 10, 2024
Les millors ofertes d'aquesta setmana, les principals inversions en IA, TI, Web3i Crypto (06-10.04)
Resum Negocis mercats Software Tecnologia
Les millors ofertes d'aquesta setmana, les principals inversions en IA, TI, Web3i Crypto (06-10.04)
Pot 10, 2024
CRYPTOMERIA LABS PTE. LTD.