El model Würstchen V2 guanya Stable Diffusion XL amb una velocitat impressionant per generar imatges d'alta resolució
Un tuit recent de l'autor d'un article titulat "Würstchen" (en alemany per "salsitxa") ha captat l'atenció tant d'entusiastes com d'experts. El tuit va compartir els resultats intrigants de la generació d'imatges amb el nou model Würstchen V2.
Würstchen és ràpid i eficient i genera imatges més ràpidament que models com ara Stable Diffusion XL mentre s'utilitza menys memòria. També ha reduït els costos d'entrenament, amb Würstchen v1 que només requereix 9,000 hores de formació de GPU amb resolucions de 512 × 512, en comparació amb les 150,000 hores de GPU invertides en Stable Diffusion 1.4. Aquesta reducció de costos de 16 vegades no només beneficia els investigadors que realitzen nous experiments, sinó que també obre la porta a més organitzacions per formar aquests models. Würstchen v2 va utilitzar 24,602 hores de GPU, fet que el va fer 6 vegades més barat que SD1.4, que només es va entrenar a 512 × 512.
Würstchen V2 és un model de difusió que funciona en un espai latent d'imatges altament comprimit, reduint els costos computacionals d'entrenament i inferència per ordres de magnitud. Utilitza un disseny nou que aconsegueix una compressió espacial de 42x, una gesta no vista anteriorment. Würstchen utilitza una compressió de dues etapes, Etapa A i Etapa B, que descodifica les imatges comprimides de nou a l'espai de píxels. Un tercer model, l'etapa C, s'aprèn a l'espai latent altament comprimit, que requereix fraccions de càlcul utilitzades per als models actuals de millor rendiment alhora que permet una inferència més barata i ràpida.
Würstchen V2 consta de dues etapes de difusió:
- Etapa A: Aquesta etapa implica una difusió condicionada per text i compta amb un sorprenent mil milions de paràmetres. L'acceleració aquí s'aconsegueix mitjançant tècniques de compressió ultra alta. Notablement, en lloc de la mida del codi ocult de 1x128x128, com es veu a SDXL, Würstchen V4 funciona inicialment amb una resolució de 2x24x24. Això significa menys píxels però més canals, el que resulta en un augment de velocitat important.
- Fase B: Es tracta d'un model de difusió equipat amb 600 milions de paràmetres, encarregat de descomprimir la imatge de 24×24 a una resolució de 128×128.
Completa el procés un descodificador amb 20 milions de paràmetres que transforma el codi ocult en una imatge renderitzada.
El benefici pràctic que destaca immediatament és la notable velocitat de Würstchen V2. Funciona a una velocitat que és de 2 a 2.5 vegades més ràpida que SDXL, un avenç notable en el camp de Generació d'imatges d'IA.
Com amb qualsevol innovació tecnològica, pot haver-hi intercanvis. Pel que fa a la qualitat de la imatge, alguns experts suggereixen una lleugera pèrdua, tot i que encara s'espera una comparació exhaustiva i honesta per aportar proves concretes.
A continuació es mostren exemples de text a imatge generats:
Llegeix més temes relacionats:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.