Naujas teksto į vaizdą modelis GigaGAN gali generuoti 4K vaizdus per 3.66 s
Trumpai
Tyrėjai sukūrė naują teksto į vaizdą modelį, pavadintą GigaGAN, kuris gali generuoti 4K vaizdus per 3.66 sekundės.
Jis pagrįstas GAN (generative adversarial network) sistema, kuri yra tam tikros rūšies neuroninis tinklas kurie gali išmokti generuoti duomenis, panašius į mokymo duomenų rinkinį. „GigaGAN“ gali generuoti 512 pikselių vaizdus per 0.13 sekundės, 10 kartų greičiau nei ankstesnis moderniausias modelis, ir turi atskirtą, nuolatinę ir valdomą latentinę erdvę.
Jis taip pat gali būti naudojamas efektyviam, aukštesnės kokybės imtuvių tvarkytojui išmokyti.
Tyrėjai sukūrė naują teksto į vaizdą modelį, vadinamą GigaGAN kurie gali generuoti 4K vaizdai per 3.66 sekundės. Tai yra didelis patobulinimas, palyginti su esamais teksto į vaizdą modeliais, dėl kurių vienam vaizdui sukurti gali prireikti minučių ar net valandų.
GigaGAN yra pagrįstas GAN (generative adversaria network) sistema, kuri yra neuroninio tinklo tipas, galintis išmokti generuoti duomenis, panašius į mokymo duomenų rinkinį. GAN buvo naudojami tikroviškiems veidų, peizažų ir net „Street View“ vaizdų vaizdams generuoti.
Plačiau paskaitykite čia: 5+ labiausiai laukiami 2023 m. teksto į vaizdą AI modeliai |
Naujasis modelis buvo parengtas naudojant 1 milijardo vaizdų duomenų rinkinį, kuris yra daug didesnis nei duomenų rinkiniai, naudojami ankstesniems teksto į vaizdą modeliams mokyti. Dėl to GigaGAN gali sugeneruoti 512 pikselių vaizdus per 0.13 sekundės, o tai yra daugiau nei 10 kartų greičiau nei ankstesnis modernus tekstas į vaizdą modelis.
Be to, „GigaGAN“ yra su atskirta, nuolatine ir valdoma latentine erdve. Tai reiškia, kad GigaGAN gali generuoti įvairių stilių vaizdus ir kad sugeneruotus vaizdus galima tam tikru mastu valdyti. Pavyzdžiui, „GigaGAN“ gali generuoti vaizdus, išlaikančius teksto įvesties išdėstymą, o tai svarbu programoms, pavyzdžiui, generuojant produktų išdėstymo vaizdus iš teksto aprašymų.
„GigaGAN“ taip pat gali būti naudojamas efektyviam, aukštesnės kokybės atsampleriui išmokyti. Tai gali būti taikoma tikriems vaizdams arba kitų išvestims teksto į vaizdą modeliai.
Teksto kodavimo šaka, stiliaus atvaizdavimo tinklas, kelių mastelių sintezės tinklas ir stabilus dėmesys bei prisitaikantis branduolio pasirinkimas yra GigaGAN generatoriaus dalis. Kūrėjai pradeda teksto kodavimo šaką ištraukdami teksto įterpimus naudodami iš anksto paruoštą CLIP modelį ir išmoktus dėmesio sluoksnius T. Panašiai kaip StiliusGAN, įterpimas perduodamas stiliaus atvaizdavimo tinklui M, kuris generuoja stiliaus vektorių w. Norėdami sukurti vaizdo piramidę, sintezės tinklas dabar naudoja stiliaus kodą kaip moduliaciją, o teksto įterpimus kaip dėmesį. Be to, kūrėjai pristato pavyzdinį adaptyvų branduolio pasirinkimą, kad galėtų pasirinkti konvoliucijos branduolius adaptyviai pagal įvesties teksto kondicionavimą.
Diskriminatorius, kaip ir generatorius, turi dvi atšakas vaizdo apdorojimui ir teksto kondicionavimui. Teksto šaka, kaip ir generatorius, apdoroja tekstą. Vaizdo šakai suteikiama vaizdo piramidė ir jai pavesta atlikti nepriklausomas kiekvieno vaizdo skalės prognozes. Be to, prognozės daromos visose vėlesnėse mėginių mažinimo sluoksnių skalėse. Papildomi nuostoliai taip pat naudojami veiksmingai konvergencijai skatinti.
Kaip parodyta interpoliacijos tinklelyje, GigaGAN leidžia sklandžiai interpoliuoti raginimus. Keturi kampai sukurti naudojant tą patį latentinį z, bet skirtingus teksto raginimus.
Kadangi GigaGAN išsaugo atskirtą latentinę erdvę, kūrėjai gali derinti grubų vieno pavyzdžio stilių su puikiu kito modeliu. „GigaGAN“ taip pat gali tiesiogiai valdyti stilių naudodami tekstinius nurodymus.
Skaitykite daugiau susijusių straipsnių:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.