Model Würstchen V2 zmaga Stable Diffusion XL z impresivno hitrostjo za ustvarjanje slik visoke ločljivosti
Nedavni tvit avtorja članka z naslovom »Würstchen« (nemško »klobasa«) je pritegnila pozornost tako navdušencev kot strokovnjakov. V tvitu so delili zanimive rezultate ustvarjanja slik z uporabo novega modela Würstchen V2.
Podobni: Midjourney 5.2 in Stable Diffusion Posodobitve SDXL 0.9 za kreativno ustvarjanje besedila v sliko |
Würstchen je hiter in učinkovit ter ustvarja slike hitreje kot podobni modeli Stable Diffusion XL ob porabi manj pomnilnika. Prav tako ima znižane stroške usposabljanja, saj Würstchen v1 zahteva samo 9,000 ur GPU usposabljanja pri ločljivosti 512×512 v primerjavi s 150,000 urami GPU, porabljenih za Stable Diffusion 1.4. To 16-kratno znižanje stroškov ne koristi le raziskovalcem, ki izvajajo nove poskuse, ampak tudi odpira vrata več organizacijam za usposabljanje takšnih modelov. Würstchen v2 je porabil 24,602 ur GPU, zaradi česar je bil 6x cenejši od SD1.4, ki je bil treniran samo pri 512×512.
Würstchen V2 je a difuzijski model ki deluje v zelo stisnjenem latentnem prostoru slik, kar zmanjša računske stroške za usposabljanje in sklepanje za velikostne rede. Uporablja novo zasnovo, ki dosega 42-kratno prostorsko stiskanje, podvig, ki ga še niste videli. Würstchen uporablja dvostopenjsko stiskanje, stopnjo A in stopnjo B, ki dekodira stisnjene slike nazaj v prostor slikovnih pik. Tretji model, stopnja C, se nauči v zelo stisnjenem latentnem prostoru, ki zahteva delčke računanja, uporabljenega za trenutno najzmogljivejše modele, hkrati pa omogoča cenejše in hitrejše sklepanje.
Würstchen V2 obsega dve stopnji difuzije:
- Stopnja A: Ta stopnja vključuje besedilno pogojeno razširjanje in se ponaša z osupljivo milijardo parametrov. Pospešek tukaj je dosežen s tehnikami ultra visoke kompresije. Namesto velikosti skrite kode 1x128x128, kot jo vidimo v SDXL, Würstchen V4 na začetku deluje pri ločljivosti 2x24x24. To pomeni manj slikovnih pik, a več kanalov, kar ima za posledico znatno povečanje hitrosti.
- Stopnja B: To je difuzijski model, opremljen s 600 milijoni parametrov, ki so odgovorni za dekompresijo slike iz 24×24 na ločljivost 128×128.
Postopek zaključi dekoder z 20 milijoni parametrov, ki pretvori skrito kodo v upodobljeno sliko.
Praktična prednost, ki takoj izstopa, je izjemna hitrost Würstchen V2. Deluje s hitrostjo, ki je 2–2.5-krat hitrejša od SDXL, kar je omembe vreden napredek na področju Generiranje slik AI.
Kot pri vsaki tehnološki inovaciji lahko obstajajo kompromisi. Kar zadeva kakovost slike, nekateri strokovnjaki predlagajo rahlo izgubo, čeprav še vedno čakamo na celovito in pošteno primerjavo, ki bo zagotovila konkretne dokaze.
Primeri ustvarjenega besedila v sliko so spodaj:
Preberite več povezanih tem:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.