Tudósítást Technológia
19. szeptember 2023.

A Würstchen V2 modell győzött Stable Diffusion XL lenyűgöző sebességgel a nagy felbontású képek készítéséhez

Egy friss tweet a „Würstchen” (németül „kolbász”) című cikk szerzője felkeltette a rajongók és a szakértők figyelmét. A tweet megosztotta az új Würstchen V2 modellel készített képek lenyűgöző eredményeit.

A Würstchen V2 modell győzött Stable Diffusion XL lenyűgöző sebességgel a nagy felbontású képek készítéséhez
Összefüggő: Midjourney 5.2 és Stable Diffusion SDXL 0.9 frissítések a kreatív szöveg-kép létrehozásához

A Würstchen gyors és hatékony, gyorsabban generál képeket, mint a modellekhez hasonló Stable Diffusion XL, miközben kevesebb memóriát használ. Csökkenti a képzési költségeket is, mivel a Würstchen v1 mindössze 9,000 GPU-órát igényel 512×512 felbontás mellett, szemben a 150,000 XNUMX GPU-órával. Stable Diffusion 1.4. Ez a 16-szoros költségcsökkentés nem csak az új kísérleteket végző kutatók számára előnyös, hanem több szervezet számára is megnyitja a lehetőséget az ilyen modellek képzésére. A Würstchen v2 24,602 6 GPU órát használt, így hatszor olcsóbb, mint az SD1.4, amelyet csak 512 × 512-re edzettek.

Az egyik kiemelkedő tulajdonság, amely azonnal felkeltette az AI-közösség figyelmét, a Würstchen V2 lenyűgöző sebessége. A szerző szerint négy 1024×2048-as kép létrehozása ezzel a modellel mindössze 7 másodpercet vesz igénybe. Ahhoz, hogy ezt a perspektívát szemléljük, az SDXL modellnek viszonylag lassú 40 másodpercre lenne szüksége ugyanazon feladat végrehajtásához.

A korábban bemutatott Würstchen V1 látensként megosztja alapítását az SDXL-lel Diffúziós modell de gyorsabb Unet architektúrát tartalmaz. Mivel a közösség lelkesen várja a Würstchen V2 architektúrájának további részleteit, a megnövekedett sebesség önmagában is figyelemre méltó fejleménynek számít.

A Würstchen V2 egy diffúziós modell amely a képek erősen tömörített látens terében működik, nagyságrendekkel csökkentve a képzés és a következtetés számítási költségeit. Olyan újszerű kialakítást alkalmaz, amely 42-szeres térbeli tömörítést ér el, ami korábban nem látott teljesítmény. A Würstchen kétlépcsős tömörítést alkalmaz, Stage A és Stage B, amelyek a tömörített képeket visszafejtik pixeltérbe. A harmadik modellt, a C szakaszt az erősen tömörített látens térben tanulják meg, ami a jelenlegi legjobban teljesítő modellekhez használt számítás töredékeit igényli, miközben olcsóbb és gyorsabb következtetést tesz lehetővé.

A Würstchen V2 két diffúziós fokozatból áll:

  • A szakasz: Ez a szakasz szövegfeltételes diffúziót foglal magában, és elképesztő 1 milliárd paraméterrel büszkélkedhet. A gyorsulás itt ultra-nagy tömörítési technikákkal érhető el. Nevezetesen, az SDXL-ben látható 128x128x4-es rejtett kódméret helyett a Würstchen V2 kezdetben 24x24x16-os felbontással működik. Ez kevesebb képpontot, de több csatornát jelent, ami jelentős sebességnövekedést eredményez.
  • B szakasz: Ez egy 600 millió paraméterrel felszerelt diffúziós modell, amely a kép 24×24-ről 128×128-as felbontásra való kibontásáért felelős.

A folyamatot egy 20 millió paraméterrel rendelkező dekódoló fejezi be, amely a rejtett kódot renderelt képpé alakítja.

A gyakorlati előny, amely azonnal szembetűnik, a Würstchen V2 figyelemre méltó sebessége. Az SDXL-nél 2-2.5-szer gyorsabb sebességgel működik, ami figyelemre méltó előrelépés a AI képgenerálás.

Mint minden technológiai innovációnál, itt is lehetnek kompromisszumok. A képminőséget illetően egyes szakértők enyhe veszteséget javasolnak, bár a konkrét bizonyítékok átfogó és őszinte összehasonlítása még várat magára.

Alább láthatók a generált szöveg-képpé példák:

További kapcsolódó témákról olvashat:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Donald Trump átállása a kriptográfia felé: az ellenfélből a szószólóvá, és mit jelent ez az amerikai kriptovaluta piac számára
üzleti piacok Történetek és vélemények Technológia
Donald Trump átállása a kriptográfia felé: az ellenfélből a szószólóvá, és mit jelent ez az amerikai kriptovaluta piac számára
May 10, 2024
3. réteg az L3 Token bevezetésére ezen a nyáron, amely a teljes kínálat 51%-át a közösségnek osztja
piacok Tudósítást Technológia
3. réteg az L3 Token bevezetésére ezen a nyáron, amely a teljes kínálat 51%-át a közösségnek osztja
May 10, 2024
Edward Snowden utolsó figyelmeztetése a Bitcoin fejlesztői számára: „Tegye az adatvédelmet protokollszintű prioritássá, vagy kockáztassa az elvesztését
piacok Biztonság Wiki szoftver Történetek és vélemények Technológia
Edward Snowden utolsó figyelmeztetése a Bitcoin fejlesztői számára: „Tegye az adatvédelmet protokollszintű prioritássá, vagy kockáztassa az elvesztését
May 10, 2024
Az Optimism-alapú Ethereum Layer 2 Network Mint május 15-én elindítja a hálózatát
Tudósítást Technológia
Az Optimism-alapú Ethereum Layer 2 Network Mint május 15-én elindítja a hálózatát
May 10, 2024
CRYPTOMERIA LABS PTE. KFT.