Novinová správa Technológia
September 19, 2023

Model Würstchen V2 víťazí Stable Diffusion XL s pôsobivou rýchlosťou na vytváranie obrázkov vo vysokom rozlíšení

Nedávny tweet od autora článku s názvom „Würstchen“ (v nemčine „klobása“) zaujala nadšencov aj odborníkov. Tweet zdieľal zaujímavé výsledky generovania obrázkov pomocou nového modelu Würstchen V2.

Model Würstchen V2 víťazí Stable Diffusion XL s pôsobivou rýchlosťou na vytváranie obrázkov vo vysokom rozlíšení
príbuzný: Midjourney 5.2 a Stable Diffusion Aktualizácie SDXL 0.9 pre kreatívne generovanie textu na obrázok

Würstchen je rýchly a efektívny, generuje obrázky rýchlejšie ako modely Stable Diffusion XL pri použití menšej pamäte. Má tiež znížené náklady na školenie, pretože Würstchen v1 vyžaduje iba 9,000 512 hodín školenia GPU v rozlíšení 512 × 150,000 v porovnaní so XNUMX XNUMX hodinami GPU strávenými na Stable Diffusion 1.4. Toto 16-násobné zníženie nákladov je prínosom nielen pre výskumníkov, ktorí vykonávajú nové experimenty, ale otvára aj dvere viacerým organizáciám na školenie takýchto modelov. Würstchen v2 využíval 24,602 6 GPU hodín, vďaka čomu je 1.4x lacnejší ako SD512, ktorý bol trénovaný iba na 512 × XNUMX.

Jednou z výnimočných funkcií, ktorá okamžite upútala pozornosť komunity AI, je pôsobivá rýchlosť Würstchen V2. Podľa autora trvá vygenerovanie štyroch obrázkov 1024×2048 pomocou tohto modelu len 7 sekúnd. Aby sme to uviedli do perspektívy, model SDXL by potreboval na dosiahnutie rovnakej úlohy pomerne pomalých 40 sekúnd.

Würstchen V1, ktorý bol predstavený už skôr, zdieľa svoj základ s SDXL ako latentný Difúzny model ale obsahuje rýchlejšiu architektúru Unet. Keďže komunita netrpezlivo očakáva ďalšie podrobnosti o architektúre Würstchen V2, samotná zvýšená rýchlosť ho označuje za pozoruhodný vývoj.

Würstchen V2 je a difúzny model ktorý pracuje vo vysoko komprimovanom latentnom priestore obrázkov, čím sa rádovo znižujú výpočtové náklady na školenie a odvodenie. Využíva nový dizajn, ktorý dosahuje 42-násobné priestorové stlačenie, čo sme doteraz nevideli. Würstchen využíva dvojstupňovú kompresiu, Stage A a Stage B, ktoré dekódujú komprimované obrázky späť do pixelového priestoru. Tretí model, Stage C, sa učí vo vysoko komprimovanom latentnom priestore, čo si vyžaduje zlomky výpočtov používaných pre súčasné najvýkonnejšie modely, pričom umožňuje lacnejšie a rýchlejšie odvodenie.

Würstchen V2 pozostáva z dvoch difúznych stupňov:

  • Fáza A: Táto fáza zahŕňa textovo podmienenú difúziu a môže sa pochváliť ohromujúcou 1 miliardou parametrov. Zrýchlenie sa tu dosahuje pomocou techník ultra vysokej kompresie. Je pozoruhodné, že namiesto skrytej veľkosti kódu 128x128x4, ako je vidieť v SDXL, Würstchen V2 spočiatku funguje v rozlíšení 24x24x16. To znamená menej pixelov, ale viac kanálov, čo vedie k výraznému zvýšeniu rýchlosti.
  • Fáza B: Ide o difúzny model vybavený 600 miliónmi parametrov, zodpovedných za dekompresiu obrazu z 24×24 na rozlíšenie 128×128.

Proces dopĺňa dekodér s 20 miliónmi parametrov, ktorý premení skrytý kód na vykreslený obrázok.

Praktickou výhodou, ktorá okamžite vynikne, je pozoruhodná rýchlosť Würstchen V2. Pracuje rýchlosťou, ktorá je 2-2.5-krát rýchlejšia ako SDXL, čo je pozoruhodný pokrok v oblasti generovanie obrazu AI.

Ako pri každej technologickej inovácii, aj tu môžu existovať kompromisy. Pokiaľ ide o kvalitu obrazu, niektorí odborníci naznačujú miernu stratu, aj keď sa stále čaká na komplexné a čestné porovnanie, ktoré prinesie konkrétne dôkazy.

Príklady vygenerovaného prevodu textu na obrázok sú uvedené nižšie:

Prečítajte si ďalšie súvisiace témy:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Posun Donalda Trumpa ku kryptomenám: od oponenta k advokátovi a čo to znamená pre americký trh s kryptomenami
firmy trhy Príbehy a recenzie Technológia
Posun Donalda Trumpa ku kryptomenám: od oponenta k advokátovi a čo to znamená pre americký trh s kryptomenami
Môže 10, 2024
Layer3 na spustenie tokenu L3 toto leto, pričom komunite pridelí 51 % celkovej ponuky
trhy Novinová správa Technológia
Layer3 na spustenie tokenu L3 toto leto, pričom komunite pridelí 51 % celkovej ponuky
Môže 10, 2024
Posledné varovanie Edwarda Snowdena pre vývojárov bitcoínov: „Urobte zo súkromia prioritu na úrovni protokolu alebo riskujte jeho stratu
trhy zabezpečenia Wiki Softvér Príbehy a recenzie Technológia
Posledné varovanie Edwarda Snowdena pre vývojárov bitcoínov: „Urobte zo súkromia prioritu na úrovni protokolu alebo riskujte jeho stratu
Môže 10, 2024
Optimizmom poháňaná sieť Ethereum Layer 2 Mint spustí svoju hlavnú sieť 15. mája
Novinová správa Technológia
Optimizmom poháňaná sieť Ethereum Layer 2 Mint spustí svoju hlavnú sieť 15. mája
Môže 10, 2024
CRYPTOMERIA LABS PTE. LTD.