Naujienų ataskaita
Kovo 20, 2023

Naujas teksto į vaizdą modelis GigaGAN gali generuoti 4K vaizdus per 3.66 s

Trumpai

Tyrėjai sukūrė naują teksto į vaizdą modelį, pavadintą GigaGAN, kuris gali generuoti 4K vaizdus per 3.66 sekundės.

Jis pagrįstas GAN (generative adversarial network) sistema, kuri yra tam tikros rūšies neuroninis tinklas kurie gali išmokti generuoti duomenis, panašius į mokymo duomenų rinkinį. „GigaGAN“ gali generuoti 512 pikselių vaizdus per 0.13 sekundės, 10 kartų greičiau nei ankstesnis moderniausias modelis, ir turi atskirtą, nuolatinę ir valdomą latentinę erdvę.

Jis taip pat gali būti naudojamas efektyviam, aukštesnės kokybės imtuvių tvarkytojui išmokyti.

Tyrėjai sukūrė naują teksto į vaizdą modelį, vadinamą GigaGAN kurie gali generuoti 4K vaizdai per 3.66 sekundės. Tai yra didelis patobulinimas, palyginti su esamais teksto į vaizdą modeliais, dėl kurių vienam vaizdui sukurti gali prireikti minučių ar net valandų.

Naujasis teksto į vaizdą modelis GigaGAN gali generuoti 4K vaizdus 3.66 s greičiu

GigaGAN yra pagrįstas GAN (generative adversaria network) sistema, kuri yra neuroninio tinklo tipas, galintis išmokti generuoti duomenis, panašius į mokymo duomenų rinkinį. GAN buvo naudojami tikroviškiems veidų, peizažų ir net „Street View“ vaizdų vaizdams generuoti.

Plačiau paskaitykite čia: 5+ labiausiai laukiami 2023 m. teksto į vaizdą AI modeliai

Naujasis modelis buvo parengtas naudojant 1 milijardo vaizdų duomenų rinkinį, kuris yra daug didesnis nei duomenų rinkiniai, naudojami ankstesniems teksto į vaizdą modeliams mokyti. Dėl to GigaGAN gali sugeneruoti 512 pikselių vaizdus per 0.13 sekundės, o tai yra daugiau nei 10 kartų greičiau nei ankstesnis modernus tekstas į vaizdą modelis.

Be to, „GigaGAN“ yra su atskirta, nuolatine ir valdoma latentine erdve. Tai reiškia, kad GigaGAN gali generuoti įvairių stilių vaizdus ir kad sugeneruotus vaizdus galima tam tikru mastu valdyti. Pavyzdžiui, „GigaGAN“ gali generuoti vaizdus, ​​​​išlaikančius teksto įvesties išdėstymą, o tai svarbu programoms, pavyzdžiui, generuojant produktų išdėstymo vaizdus iš teksto aprašymų.

„GigaGAN“ taip pat gali būti naudojamas efektyviam, aukštesnės kokybės atsampleriui išmokyti. Tai gali būti taikoma tikriems vaizdams arba kitų išvestims teksto į vaizdą modeliai.

Teksto kodavimo šaka, stiliaus atvaizdavimo tinklas, kelių mastelių sintezės tinklas ir stabilus dėmesys bei prisitaikantis branduolio pasirinkimas yra GigaGAN generatoriaus dalis. Kūrėjai pradeda teksto kodavimo šaką ištraukdami teksto įterpimus naudodami iš anksto paruoštą CLIP modelį ir išmoktus dėmesio sluoksnius T. Panašiai kaip StiliusGAN, įterpimas perduodamas stiliaus atvaizdavimo tinklui M, kuris generuoja stiliaus vektorių w. Norėdami sukurti vaizdo piramidę, sintezės tinklas dabar naudoja stiliaus kodą kaip moduliaciją, o teksto įterpimus kaip dėmesį. Be to, kūrėjai pristato pavyzdinį adaptyvų branduolio pasirinkimą, kad galėtų pasirinkti konvoliucijos branduolius adaptyviai pagal įvesties teksto kondicionavimą.

Diskriminatorius, kaip ir generatorius, turi dvi atšakas vaizdo apdorojimui ir teksto kondicionavimui. Teksto šaka, kaip ir generatorius, apdoroja tekstą. Vaizdo šakai suteikiama vaizdo piramidė ir jai pavesta atlikti nepriklausomas kiekvieno vaizdo skalės prognozes. Be to, prognozės daromos visose vėlesnėse mėginių mažinimo sluoksnių skalėse. Papildomi nuostoliai taip pat naudojami veiksmingai konvergencijai skatinti.

Kaip parodyta interpoliacijos tinklelyje, GigaGAN leidžia sklandžiai interpoliuoti raginimus. Keturi kampai sukurti naudojant tą patį latentinį z, bet skirtingus teksto raginimus.

Kadangi GigaGAN išsaugo atskirtą latentinę erdvę, kūrėjai gali derinti grubų vieno pavyzdžio stilių su puikiu kito modeliu. „GigaGAN“ taip pat gali tiesiogiai valdyti stilių naudodami tekstinius nurodymus.

Skaitykite daugiau susijusių straipsnių:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau

Samourai piniginės įkūrėjai apkaltinti palengvinę 2 mlrd. USD „Darknet“ sandorius

„Samourai Wallet“ įkūrėjų nuogąstavimai yra reikšmingas pramonės nuosmukis, pabrėžiantis nuolatinį ...

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
„AltLayer“ pradeda antrąjį savo statymo iniciatyvos etapą, pristato „realaus žetoną“.
rinkos Naujienų ataskaita Technologija
„AltLayer“ pradeda antrąjį savo statymo iniciatyvos etapą, pristato „realaus žetoną“.
Gali 2, 2024
BNB tinklo 1 m. pirmojo ketvirčio ataskaitoje pabrėžiama, kad jos vertė sumažėjo 2024 proc., o BSC TVL pakilo 55.8 proc.
rinkos Naujienų ataskaita Technologija
BNB tinklo 1 m. pirmojo ketvirčio ataskaitoje pabrėžiama, kad jos vertė sumažėjo 2024 proc., o BSC TVL pakilo 55.8 proc.
Gali 2, 2024
„Aave Labs“ pristato „Aave 2030“ pasiūlymą, įskaitant „Aave V4“ protokolo paleidimą
Atsakingas verslas Naujienų ataskaita Technologija
„Aave Labs“ pristato „Aave 2030“ pasiūlymą, įskaitant „Aave V4“ protokolo paleidimą
Gali 2, 2024
„Ankr“ bendradarbiauja su AI „Blockchain“ platformos „Talus“ tinklu, siekdamas atrakinti „Bitcoin“ likvidumą AI
Atsakingas verslas Naujienų ataskaita Technologija
„Ankr“ bendradarbiauja su AI „Blockchain“ platformos „Talus“ tinklu, siekdamas atrakinti „Bitcoin“ likvidumą AI
Gali 1, 2024
CRYPTOMERIA LABS PTE. LTD.