Vijesti Tehnologija
Rujna 19, 2023

Model Würstchen V2 osvaja Stable Diffusion XL s impresivnom brzinom za generiranje slika visoke razlučivosti

Nedavni tweet autora članka pod naslovom “Würstchen” (njemački “kobasica”) zaokupila je pozornost kako entuzijasta tako i stručnjaka. Tweet je podijelio intrigantne rezultate generiranja slika pomoću novog modela Würstchen V2.

Model Würstchen V2 osvaja Stable Diffusion XL s impresivnom brzinom za generiranje slika visoke razlučivosti
povezan: Midjourney 5.2 i Stable Diffusion SDXL 0.9 ažuriranja za kreativno generiranje teksta u sliku

Würstchen je brz i učinkovit, stvara slike brže od sličnih modela Stable Diffusion XL dok koristi manje memorije. Također ima smanjene troškove obuke, s Würstchen v1 koji zahtijeva samo 9,000 GPU sati obuke pri 512×512 rezolucijama, u usporedbi sa 150,000 GPU sati utrošenih na Stable Diffusion 1.4. Ovo 16x smanjenje troškova ne samo da koristi istraživačima koji provode nove pokuse, već također otvara vrata većem broju organizacija za obuku takvih modela. Würstchen v2 je koristio 24,602 GPU sata, što ga čini 6x jeftinijim od SD1.4, koji je treniran samo na 512×512.

Jedna izvanredna značajka koja je odmah zapela za oko AI zajednici je impresivna brzina Würstchen V2. Prema autoru, generiranje četiri slike 1024×2048 pomoću ovog modela traje samo 7 sekundi. Da bismo to stavili u perspektivu, SDXL model bi zahtijevao relativno sporih 40 sekundi za postizanje istog zadatka.

Würstchen V1, predstavljen ranije, dijeli svoje temelje sa SDXL kao Latent Difuzijski model ali uključuje bržu Unet arhitekturu. Budući da zajednica željno očekuje daljnje detalje o arhitekturi Würstchen V2, sama poboljšana brzina označava ga kao razvoj vrijedan pažnje.

Würstchen V2 je a difuzijski model koji radi u visoko komprimiranom latentnom prostoru slika, smanjujući računalne troškove za obuku i zaključivanje za redove veličine. Koristi novi dizajn koji postiže prostornu kompresiju od 42x, što je dosad neviđeno. Würstchen koristi kompresiju u dva stupnja, stupanj A i stupanj B, koji dekodiraju komprimirane slike natrag u prostor piksela. Treći model, Stage C, uči se u visoko komprimiranom latentnom prostoru, zahtijevajući dijelove računanja koji se koriste za trenutne modele s najboljim učinkom, a istovremeno omogućuje jeftinije i brže zaključivanje.

Würstchen V2 sastoji se od dva stupnja difuzije:

  • Faza A: Ova faza uključuje tekstualno uvjetovanu difuziju i može se pohvaliti sa nevjerojatnih milijardu parametara. Ubrzanje se ovdje postiže tehnikama ultra-visoke kompresije. Naime, umjesto veličine skrivenog koda od 1x128x128, kao što se vidi u SDXL-u, Würstchen V4 u početku radi na razlučivosti od 2x24x24. To znači manje piksela, ali više kanala, što rezultira značajnim povećanjem brzine.
  • Faza B: Ovo je difuzijski model opremljen sa 600 milijuna parametara, odgovornih za dekompresiju slike od 24×24 do rezolucije 128×128.

Proces dovršava dekoder s 20 milijuna parametara koji pretvara skriveni kod u renderiranu sliku.

Praktična prednost koja se odmah ističe je izvanredna brzina Würstchen V2. Radi brzinom koja je 2-2.5 puta brža od SDXL-a, što je značajan napredak u polju AI generiranje slike.

Kao i kod svake tehnološke inovacije, mogu postojati kompromisi. Što se tiče kvalitete slike, neki stručnjaci sugeriraju blagi gubitak, iako se još uvijek čeka sveobuhvatna i iskrena usporedba kako bi se pružili konkretni dokazi.

Primjeri generiranog teksta u sliku su ispod:

Pročitajte još povezanih tema:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Espresso Systems surađuje s Polygon Labs na razvoju AggLayera za poboljšanje interoperabilnosti zbirnog pristupa
posao Vijesti Tehnologija
Espresso Systems surađuje s Polygon Labs na razvoju AggLayera za poboljšanje interoperabilnosti zbirnog pristupa
Neka 9, 2024
Infrastrukturni protokol koji pokreće ZKP ZKBase otkriva plan puta, planira pokretanje testneta u svibnju
Vijesti Tehnologija
Infrastrukturni protokol koji pokreće ZKP ZKBase otkriva plan puta, planira pokretanje testneta u svibnju
Neka 9, 2024
BLOCKCHANCE i CONF3RENCE Ujedinite se za najveće u Njemačkoj Web3 Konferencija u Dortmundu
posao tržišta softver Priče i recenzije Tehnologija
BLOCKCHANCE i CONF3RENCE Ujedinite se za najveće u Njemačkoj Web3 Konferencija u Dortmundu
Neka 9, 2024
NuLink se pokreće na Bybitu Web3 IDO platforma. Faza pretplate produljuje se do 13. svibnja
tržišta Vijesti Tehnologija
NuLink se pokreće na Bybitu Web3 IDO platforma. Faza pretplate produljuje se do 13. svibnja
Neka 9, 2024
CRYPTOMERIA LABS PTE. LTD.