Naujienų ataskaita Technologija
Rugsėjis 19, 2023

Würstchen V2 modelis laimi Stable Diffusion XL su įspūdingu greičiu didelės raiškos vaizdams generuoti

Neseniai paskelbtas tviteris Straipsnio pavadinimu „Würstchen“ (vokiškai „dešra“) autorius patraukė entuziastų ir ekspertų dėmesį. Tviteryje pasidalijo intriguojančiais vaizdų generavimo naudojant naująjį Würstchen V2 modelį rezultatais.

Würstchen V2 modelis laimi Stable Diffusion XL su įspūdingu greičiu didelės raiškos vaizdams generuoti
Susijęs: Midjourney 5.2 ir Stable Diffusion SDXL 0.9 kūrybinio teksto į vaizdą generavimo atnaujinimai

Würstchen yra greitas ir efektyvus, sukuriantis vaizdus greičiau nei tokie modeliai Stable Diffusion XL, naudojant mažiau atminties. Taip pat sumažintos mokymo išlaidos, nes Würstchen v1 reikalauja tik 9,000 512 GPU valandų, kai skiriamoji geba 512 × 150,000, palyginti su XNUMX XNUMX GPU valandų. Stable Diffusion 1.4. Šis 16 kartų sumažintas sąnaudas ne tik naudingas mokslininkams, atliekantiems naujus eksperimentus, bet ir atveria duris daugiau organizacijų mokyti tokius modelius. Würstchen v2 naudojo 24,602 6 GPU valandas, todėl jis 1.4 kartus pigesnis nei SD512, kuris buvo apmokytas tik 512 × XNUMX.

Viena išskirtinė savybė, kuri iškart patraukė AI bendruomenės dėmesį, yra įspūdingas Würstchen V2 greitis. Pasak autoriaus, keturių 1024×2048 vaizdų generavimas naudojant šį modelį užtrunka vos 7 sekundes. Norint tai pažvelgti į perspektyvą, SDXL modeliui tai pačiai užduočiai atlikti prireiktų palyginti vangių 40 sekundžių.

Würstchen V1, pristatytas anksčiau, dalijasi savo pagrindu su SDXL kaip latentinis Difuzijos modelis bet apima greitesnę Unet architektūrą. Kadangi bendruomenė nekantriai laukia daugiau informacijos apie Würstchen V2 architektūrą, vien dėl padidinto greičio tai verta dėmesio.

Würstchen V2 yra a difuzijos modelis kuri veikia labai suspaustoje latentinėje vaizdų erdvėje, sumažindama mokymo ir išvadų skaičiavimo išlaidas dydžių tvarka. Jame naudojamas naujas dizainas, pasiekiantis 42x erdvinį suspaudimą, o tai dar nematyta. Würstchen naudoja dviejų pakopų glaudinimą, A ir B etapą, kurie suglaudintus vaizdus iššifruoja atgal į pikselių erdvę. Trečiasis modelis, C etapas, yra išmoktas labai suspaustoje latentinėje erdvėje, todėl reikia skaičiavimo dalių, naudojamų dabartiniams geriausiems modeliams, tuo pačiu leidžiant daryti pigesnes ir greitesnes išvadas.

Würstchen V2 susideda iš dviejų difuzijos etapų:

  • A etapas: Šis etapas apima teksto sąlygotą sklaidą ir gali pasigirti stulbinančiu 1 milijardu parametrų. Pagreitis čia pasiekiamas naudojant itin aukšto suspaudimo metodus. Pažymėtina, kad vietoj paslėpto kodo dydžio 128x128x4, kaip matyti SDXL, Würstchen V2 iš pradžių veikia 24x24x16 raiška. Tai reiškia, kad yra mažiau pikselių, bet daugiau kanalų, todėl greitis žymiai padidėja.
  • B etapas: Tai difuzinis modelis su 600 milijonų parametrų, atsakingas už vaizdo išskleidimo nuo 24 × 24 iki 128 × 128 raiškos.

Procesą užbaigia dekoderis su 20 milijonų parametrų, paverčiantis paslėptą kodą į pateiktą vaizdą.

Praktinė nauda, ​​kuri iš karto išsiskiria, yra puikus Würstchen V2 greitis. Jis veikia 2–2.5 karto greičiau nei SDXL, o tai yra pastebimas pažanga AI vaizdo generavimas.

Kaip ir bet kurios technologinės naujovės atveju, gali būti kompromisų. Kalbant apie vaizdo kokybę, kai kurie ekspertai siūlo nedidelį praradimą, nors vis dar laukiama išsamaus ir sąžiningo palyginimo, kad būtų pateikti konkretūs įrodymai.

Toliau pateikiami sugeneruotų teksto į vaizdą pavyzdžiai:

Skaityti daugiau susijusių temų:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Atsakingas verslas rinkos Istorijos ir apžvalgos Technologija
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Gali 10, 2024
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
rinkos Naujienų ataskaita Technologija
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
Gali 10, 2024
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
rinkos saugumas Wiki programinė įranga Istorijos ir apžvalgos Technologija
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
Gali 10, 2024
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Naujienų ataskaita Technologija
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Gali 10, 2024
CRYPTOMERIA LABS PTE. LTD.