Novinky Technika
Září 19, 2023

Model Würstchen V2 vítězí Stable Diffusion XL s působivou rychlostí pro generování obrázků ve vysokém rozlišení

Nedávný tweet od autora článku s názvem „Würstchen“ (německy „klobása“) upoutal pozornost nadšenců i odborníků. Tweet sdílel zajímavé výsledky generování obrázků pomocí nového modelu Würstchen V2.

Model Würstchen V2 vítězí Stable Diffusion XL s působivou rychlostí pro generování obrázků ve vysokém rozlišení
PODOBNÉ ČLÁNKY: Midjourney 5.2 a Stable Diffusion Aktualizace SDXL 0.9 pro kreativní generování textu na obrázek

Würstchen je rychlý a efektivní, generuje obrázky rychleji než modely Stable Diffusion XL při použití menší paměti. Má také snížené náklady na školení, Würstchen v1 vyžaduje pouze 9,000 512 hodin školení GPU v rozlišení 512 × 150,000 ve srovnání se XNUMX XNUMX hodinami GPU strávenými na Stable Diffusion 1.4. Toto 16násobné snížení nákladů je přínosem nejen pro výzkumníky provádějící nové experimenty, ale také otevírá dveře dalším organizacím k výcviku takových modelů. Würstchen v2 používal 24,602 6 GPU hodin, což je 1.4x levnější než SD512, který byl trénován pouze na 512×XNUMX.

Jednou z výjimečných funkcí, která okamžitě upoutala pozornost komunity AI, je působivá rychlost Würstchen V2. Podle autora trvá vygenerování čtyř obrázků 1024×2048 pomocí tohoto modelu pouhých 7 sekund. Abychom to uvedli do perspektivy, model SDXL by k dosažení stejného úkolu vyžadoval poměrně pomalých 40 sekund.

Würstchen V1, představený dříve, sdílí svůj základ s SDXL jako latentní Difúzní model ale obsahuje rychlejší architekturu Unet. Protože komunita dychtivě očekává další podrobnosti o architektuře Würstchen V2, samotná zvýšená rychlost znamená, že jde o pozoruhodný vývoj.

Würstchen V2 je a difuzní model který pracuje ve vysoce komprimovaném latentním prostoru obrazů, čímž se řádově snižují výpočetní náklady na školení a odvození. Využívá neotřelý design, který dosahuje 42x prostorové komprese, což je výkon, který dříve nebyl viděn. Würstchen využívá dvoustupňovou kompresi, Stage A a Stage B, která dekóduje komprimované obrázky zpět do prostoru pixelů. Třetí model, Stage C, se učí ve vysoce komprimovaném latentním prostoru, což vyžaduje zlomky výpočtu používaného pro současné nejvýkonnější modely a zároveň umožňuje levnější a rychlejší odvození.

Würstchen V2 se skládá ze dvou difúzních stupňů:

  • Fáze A: Tato fáze zahrnuje textově podmíněnou difúzi a může se pochlubit ohromující 1 miliardou parametrů. Zrychlení je zde dosaženo pomocí technik ultra vysoké komprese. Je pozoruhodné, že namísto skryté velikosti kódu 128x128x4, jak je vidět v SDXL, Würstchen V2 zpočátku pracuje v rozlišení 24x24x16. To znamená méně pixelů, ale více kanálů, což má za následek výrazné zvýšení rychlosti.
  • Fáze B: Jedná se o difúzní model vybavený 600 miliony parametrů, zodpovědný za dekompresi obrazu z 24×24 na rozlišení 128×128.

Proces završuje dekodér s 20 miliony parametrů, který přemění skrytý kód na vykreslený obrázek.

Praktickou výhodou, která okamžitě vynikne, je pozoruhodná rychlost Würstchen V2. Pracuje rychlostí, která je 2-2.5krát rychlejší než SDXL, což je pozoruhodný pokrok v oblasti Generování AI obrazu.

Jako u každé technologické inovace mohou existovat kompromisy. Pokud jde o kvalitu obrazu, někteří odborníci navrhují mírnou ztrátu, i když se stále čeká na komplexní a poctivé srovnání, které přinese konkrétní důkazy.

Níže jsou uvedeny vygenerované příklady převodu textu na obrázek:

Přečtěte si další související témata:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
Trhy Novinky Technika
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
8
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
Trhy Vývoj Příběhy a recenze Technika
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
8
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
Business Trhy Novinky
Crypto Trading Platform BitMEX uvádí na trh opční obchodování s 0 poplatky a hotovostními pobídkami
8
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
Novinky Technika
Lisk oficiálně přechází na Ethereum Layer 2 a odhaluje Core v4.0.6
8
CRYPTOMERIA LABS PTE. LTD.