A Würstchen V2 modell győzött Stable Diffusion XL lenyűgöző sebességgel a nagy felbontású képek készítéséhez
Egy friss tweet a „Würstchen” (németül „kolbász”) című cikk szerzője felkeltette a rajongók és a szakértők figyelmét. A tweet megosztotta az új Würstchen V2 modellel készített képek lenyűgöző eredményeit.
Összefüggő: Midjourney 5.2 és Stable Diffusion SDXL 0.9 frissítések a kreatív szöveg-kép létrehozásához |
A Würstchen gyors és hatékony, gyorsabban generál képeket, mint a modellekhez hasonló Stable Diffusion XL, miközben kevesebb memóriát használ. Csökkenti a képzési költségeket is, mivel a Würstchen v1 mindössze 9,000 GPU-órát igényel 512×512 felbontás mellett, szemben a 150,000 XNUMX GPU-órával. Stable Diffusion 1.4. Ez a 16-szoros költségcsökkentés nem csak az új kísérleteket végző kutatók számára előnyös, hanem több szervezet számára is megnyitja a lehetőséget az ilyen modellek képzésére. A Würstchen v2 24,602 6 GPU órát használt, így hatszor olcsóbb, mint az SD1.4, amelyet csak 512 × 512-re edzettek.
A Würstchen V2 egy diffúziós modell amely a képek erősen tömörített látens terében működik, nagyságrendekkel csökkentve a képzés és a következtetés számítási költségeit. Olyan újszerű kialakítást alkalmaz, amely 42-szeres térbeli tömörítést ér el, ami korábban nem látott teljesítmény. A Würstchen kétlépcsős tömörítést alkalmaz, Stage A és Stage B, amelyek a tömörített képeket visszafejtik pixeltérbe. A harmadik modellt, a C szakaszt az erősen tömörített látens térben tanulják meg, ami a jelenlegi legjobban teljesítő modellekhez használt számítás töredékeit igényli, miközben olcsóbb és gyorsabb következtetést tesz lehetővé.
A Würstchen V2 két diffúziós fokozatból áll:
- A szakasz: Ez a szakasz szövegfeltételes diffúziót foglal magában, és elképesztő 1 milliárd paraméterrel büszkélkedhet. A gyorsulás itt ultra-nagy tömörítési technikákkal érhető el. Nevezetesen, az SDXL-ben látható 128x128x4-es rejtett kódméret helyett a Würstchen V2 kezdetben 24x24x16-os felbontással működik. Ez kevesebb képpontot, de több csatornát jelent, ami jelentős sebességnövekedést eredményez.
- B szakasz: Ez egy 600 millió paraméterrel felszerelt diffúziós modell, amely a kép 24×24-ről 128×128-as felbontásra való kibontásáért felelős.
A folyamatot egy 20 millió paraméterrel rendelkező dekódoló fejezi be, amely a rejtett kódot renderelt képpé alakítja.
A gyakorlati előny, amely azonnal szembetűnik, a Würstchen V2 figyelemre méltó sebessége. Az SDXL-nél 2-2.5-szer gyorsabb sebességgel működik, ami figyelemre méltó előrelépés a AI képgenerálás.
Mint minden technológiai innovációnál, itt is lehetnek kompromisszumok. A képminőséget illetően egyes szakértők enyhe veszteséget javasolnak, bár a konkrét bizonyítékok átfogó és őszinte összehasonlítása még várat magára.
Alább láthatók a generált szöveg-képpé példák:
További kapcsolódó témákról olvashat:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.