GLIGEN: naujas fiksuoto teksto į vaizdą kartos modelis su apvadu
Trumpai
GLIGEN, arba Grounded-Language-to-Image Generation, yra nauja technika, kuri remiasi dabartiniais iš anksto parengtais sklaidos modeliais ir išplečia jų galimybes.
Su antraštės ir apribojimo langelio sąlygų įvestimis, GLIGEN modelis generuoja atviro pasaulio įžemintą text2img.
GLIGEN gali generuoti įvairius objektus konkrečiose vietose ir stiliuose, panaudodamas žinias iš iš anksto parengto text2img modelio.
GLIGEN taip pat gali įžeminti žmogaus pagrindinius taškus generuodamas tekstą į vaizdus.
Didelio masto teksto į vaizdą sklaidos modeliai nuėjo ilgą kelią. Tačiau dabartinė praktika yra pasikliauti tik teksto įvestimi, kuri gali apriboti valdymą. GLIGENAS, arba įžemintos kalbos į vaizdą generavimas, yra nauja technika, kuri remiasi dabartiniais iš anksto parengtais teksto į vaizdą sklaidos modeliais ir išplečia jų galimybes, leidžiant juos sąlygoti įžeminimo įvestimis.
Siekdami išlaikyti išsamias iš anksto parengto modelio koncepcijos žinias, kūrėjai užšaldo visus jo svorius ir valdomu procesu perkelia įžeminimo informaciją į naujus mokomus sluoksnius. Naudodamas antraštės ir ribojamojo langelio sąlygų įvestis, GLIGEN modelis sukuria atviro pasaulio įžemintą tekstą į vaizdą, o įžeminimo gebėjimas veiksmingai apibendrina naujas erdvines konfigūracijas ir koncepcijas.
Išvykimas Demo čia.
- GLIGEN yra pagrįsta esamais iš anksto apmokytais difuzijos modeliai, kurių pradiniai svoriai buvo užšaldyti, kad būtų išsaugotas didžiulis iš anksto paruoštų žinių kiekis.
- Kiekviename transformatoriaus bloke sukuriamas naujas treniruojamas „Gated Self-Attention“ sluoksnis, kuris sugeria papildomą įžeminimo įvestį.
- Kiekvienas įžeminimo ženklas turi dviejų tipų informaciją: semantinę informaciją apie įžemintą dalyką (užkoduotas tekstas arba vaizdas) ir erdvinės padėties informaciją (užkoduotas ribinis langelis arba pagrindiniai taškai).
Susijęs straipsnis: VToonify: realaus laiko AI modelis, skirtas meniniams portretiniams vaizdo įrašams kurti |
Susijęs straipsnis: „Microsoft“ išleido difuzijos modelį, kuris gali sukurti 3D avatarą iš vienos asmens nuotraukos |
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.