Würstchen V2 modelis laimi Stable Diffusion XL su įspūdingu greičiu didelės raiškos vaizdams generuoti
Neseniai paskelbtas tviteris Straipsnio pavadinimu „Würstchen“ (vokiškai „dešra“) autorius patraukė entuziastų ir ekspertų dėmesį. Tviteryje pasidalijo intriguojančiais vaizdų generavimo naudojant naująjį Würstchen V2 modelį rezultatais.
Susijęs: Midjourney 5.2 ir Stable Diffusion SDXL 0.9 kūrybinio teksto į vaizdą generavimo atnaujinimai |
Würstchen yra greitas ir efektyvus, sukuriantis vaizdus greičiau nei tokie modeliai Stable Diffusion XL, naudojant mažiau atminties. Taip pat sumažintos mokymo išlaidos, nes Würstchen v1 reikalauja tik 9,000 512 GPU valandų, kai skiriamoji geba 512 × 150,000, palyginti su XNUMX XNUMX GPU valandų. Stable Diffusion 1.4. Šis 16 kartų sumažintas sąnaudas ne tik naudingas mokslininkams, atliekantiems naujus eksperimentus, bet ir atveria duris daugiau organizacijų mokyti tokius modelius. Würstchen v2 naudojo 24,602 6 GPU valandas, todėl jis 1.4 kartus pigesnis nei SD512, kuris buvo apmokytas tik 512 × XNUMX.
Würstchen V2 yra a difuzijos modelis kuri veikia labai suspaustoje latentinėje vaizdų erdvėje, sumažindama mokymo ir išvadų skaičiavimo išlaidas dydžių tvarka. Jame naudojamas naujas dizainas, pasiekiantis 42x erdvinį suspaudimą, o tai dar nematyta. Würstchen naudoja dviejų pakopų glaudinimą, A ir B etapą, kurie suglaudintus vaizdus iššifruoja atgal į pikselių erdvę. Trečiasis modelis, C etapas, yra išmoktas labai suspaustoje latentinėje erdvėje, todėl reikia skaičiavimo dalių, naudojamų dabartiniams geriausiems modeliams, tuo pačiu leidžiant daryti pigesnes ir greitesnes išvadas.
Würstchen V2 susideda iš dviejų difuzijos etapų:
- A etapas: Šis etapas apima teksto sąlygotą sklaidą ir gali pasigirti stulbinančiu 1 milijardu parametrų. Pagreitis čia pasiekiamas naudojant itin aukšto suspaudimo metodus. Pažymėtina, kad vietoj paslėpto kodo dydžio 128x128x4, kaip matyti SDXL, Würstchen V2 iš pradžių veikia 24x24x16 raiška. Tai reiškia, kad yra mažiau pikselių, bet daugiau kanalų, todėl greitis žymiai padidėja.
- B etapas: Tai difuzinis modelis su 600 milijonų parametrų, atsakingas už vaizdo išskleidimo nuo 24 × 24 iki 128 × 128 raiškos.
Procesą užbaigia dekoderis su 20 milijonų parametrų, paverčiantis paslėptą kodą į pateiktą vaizdą.
Praktinė nauda, kuri iš karto išsiskiria, yra puikus Würstchen V2 greitis. Jis veikia 2–2.5 karto greičiau nei SDXL, o tai yra pastebimas pažanga AI vaizdo generavimas.
Kaip ir bet kurios technologinės naujovės atveju, gali būti kompromisų. Kalbant apie vaizdo kokybę, kai kurie ekspertai siūlo nedidelį praradimą, nors vis dar laukiama išsamaus ir sąžiningo palyginimo, kad būtų pateikti konkretūs įrodymai.
Toliau pateikiami sugeneruotų teksto į vaizdą pavyzdžiai:
Skaityti daugiau susijusių temų:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.