Model Würstchen V2 víťazí Stable Diffusion XL s pôsobivou rýchlosťou na vytváranie obrázkov vo vysokom rozlíšení
Nedávny tweet od autora článku s názvom „Würstchen“ (v nemčine „klobása“) zaujala nadšencov aj odborníkov. Tweet zdieľal zaujímavé výsledky generovania obrázkov pomocou nového modelu Würstchen V2.
príbuzný: Midjourney 5.2 a Stable Diffusion Aktualizácie SDXL 0.9 pre kreatívne generovanie textu na obrázok |
Würstchen je rýchly a efektívny, generuje obrázky rýchlejšie ako modely Stable Diffusion XL pri použití menšej pamäte. Má tiež znížené náklady na školenie, pretože Würstchen v1 vyžaduje iba 9,000 512 hodín školenia GPU v rozlíšení 512 × 150,000 v porovnaní so XNUMX XNUMX hodinami GPU strávenými na Stable Diffusion 1.4. Toto 16-násobné zníženie nákladov je prínosom nielen pre výskumníkov, ktorí vykonávajú nové experimenty, ale otvára aj dvere viacerým organizáciám na školenie takýchto modelov. Würstchen v2 využíval 24,602 6 GPU hodín, vďaka čomu je 1.4x lacnejší ako SD512, ktorý bol trénovaný iba na 512 × XNUMX.
Würstchen V2 je a difúzny model ktorý pracuje vo vysoko komprimovanom latentnom priestore obrázkov, čím sa rádovo znižujú výpočtové náklady na školenie a odvodenie. Využíva nový dizajn, ktorý dosahuje 42-násobné priestorové stlačenie, čo sme doteraz nevideli. Würstchen využíva dvojstupňovú kompresiu, Stage A a Stage B, ktoré dekódujú komprimované obrázky späť do pixelového priestoru. Tretí model, Stage C, sa učí vo vysoko komprimovanom latentnom priestore, čo si vyžaduje zlomky výpočtov používaných pre súčasné najvýkonnejšie modely, pričom umožňuje lacnejšie a rýchlejšie odvodenie.
Würstchen V2 pozostáva z dvoch difúznych stupňov:
- Fáza A: Táto fáza zahŕňa textovo podmienenú difúziu a môže sa pochváliť ohromujúcou 1 miliardou parametrov. Zrýchlenie sa tu dosahuje pomocou techník ultra vysokej kompresie. Je pozoruhodné, že namiesto skrytej veľkosti kódu 128x128x4, ako je vidieť v SDXL, Würstchen V2 spočiatku funguje v rozlíšení 24x24x16. To znamená menej pixelov, ale viac kanálov, čo vedie k výraznému zvýšeniu rýchlosti.
- Fáza B: Ide o difúzny model vybavený 600 miliónmi parametrov, zodpovedných za dekompresiu obrazu z 24×24 na rozlíšenie 128×128.
Proces dopĺňa dekodér s 20 miliónmi parametrov, ktorý premení skrytý kód na vykreslený obrázok.
Praktickou výhodou, ktorá okamžite vynikne, je pozoruhodná rýchlosť Würstchen V2. Pracuje rýchlosťou, ktorá je 2-2.5-krát rýchlejšia ako SDXL, čo je pozoruhodný pokrok v oblasti generovanie obrazu AI.
Ako pri každej technologickej inovácii, aj tu môžu existovať kompromisy. Pokiaľ ide o kvalitu obrazu, niektorí odborníci naznačujú miernu stratu, aj keď sa stále čaká na komplexné a čestné porovnanie, ktoré prinesie konkrétne dôkazy.
Príklady vygenerovaného prevodu textu na obrázok sú uvedené nižšie:
Prečítajte si ďalšie súvisiace témy:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.