Sausis 24, 2023

GLIGEN: naujas fiksuoto teksto į vaizdą kartos modelis su apvadu

Paskelbta: 24 m. sausio 2023 d., 5 val. Atnaujinta: 00 m. kovo 21 d., 2024:11

Redaguota ir patikrinta faktais: 24 m. sausio 2023 d., 5:00

Trumpai

GLIGEN, arba Grounded-Language-to-Image Generation, yra nauja technika, kuri remiasi dabartiniais iš anksto parengtais sklaidos modeliais ir išplečia jų galimybes.

Su antraštės ir apribojimo langelio sąlygų įvestimis, GLIGEN modelis generuoja atviro pasaulio įžemintą text2img.

GLIGEN gali generuoti įvairius objektus konkrečiose vietose ir stiliuose, panaudodamas žinias iš iš anksto parengto text2img modelio.

GLIGEN taip pat gali įžeminti žmogaus pagrindinius taškus generuodamas tekstą į vaizdus.

Didelio masto teksto į vaizdą sklaidos modeliai nuėjo ilgą kelią. Tačiau dabartinė praktika yra pasikliauti tik teksto įvestimi, kuri gali apriboti valdymą. GLIGENAS, arba įžemintos kalbos į vaizdą generavimas, yra nauja technika, kuri remiasi dabartiniais iš anksto parengtais teksto į vaizdą sklaidos modeliais ir išplečia jų galimybes, leidžiant juos sąlygoti įžeminimo įvestimis.

GLIGEN: naujas fiksuoto teksto į vaizdą kartos modelis su apvadu

Siekdami išlaikyti išsamias iš anksto parengto modelio koncepcijos žinias, kūrėjai užšaldo visus jo svorius ir valdomu procesu perkelia įžeminimo informaciją į naujus mokomus sluoksnius. Naudodamas antraštės ir ribojamojo langelio sąlygų įvestis, GLIGEN modelis sukuria atviro pasaulio įžemintą tekstą į vaizdą, o įžeminimo gebėjimas veiksmingai apibendrina naujas erdvines konfigūracijas ir koncepcijas.

Išvykimas Demo čia.

GLIGEN yra pagrįsta esamais iš anksto paruoštais difuzijos modeliais, kurių pradiniai svoriai buvo užšaldyti, kad būtų išsaugotas didžiulis iš anksto paruoštų žinių kiekis.

GLIGEN yra pagrįsta esamais iš anksto apmokytais difuzijos modeliai, kurių pradiniai svoriai buvo užšaldyti, kad būtų išsaugotas didžiulis iš anksto paruoštų žinių kiekis.
Kiekviename transformatoriaus bloke sukuriamas naujas treniruojamas „Gated Self-Attention“ sluoksnis, kuris sugeria papildomą įžeminimo įvestį.
Kiekvienas įžeminimo ženklas turi dviejų tipų informaciją: semantinę informaciją apie įžemintą dalyką (užkoduotas tekstas arba vaizdas) ir erdvinės padėties informaciją (užkoduotas ribinis langelis arba pagrindiniai taškai).

Susijęs straipsnis: VToonify: realaus laiko AI modelis, skirtas meniniams portretiniams vaizdo įrašams kurti

Naujai pridėti moduliuoti sluoksniai yra nuolat iš anksto mokomi naudojant didžiulius įžeminimo duomenis (vaizdo teksto laukelis), o tai yra ekonomiškiau nei alternatyvūs iš anksto paruošto difuzijos modelio naudojimo metodai, pvz., viso modelio koregavimas. Panašiai kaip „Lego“, galima prijungti ir išjungti skirtingus treniruotus sluoksnius, kad būtų galima naudotis įvairiomis naujomis galimybėmis. — Naujai pridėti moduliuoti sluoksniai yra nuolat iš anksto apmokomi naudojant didžiulius įžeminimo duomenis (vaizdo teksto laukelis). Tai yra ekonomiškiau nei alternatyvūs iš anksto apmokytų metodų naudojimo būdai difuzijos modelis, pvz., viso modelio koregavimas. Panašiai kaip „Lego“, galima prijungti ir išjungti skirtingus treniruotus sluoksnius, kad būtų galima naudotis įvairiomis naujomis galimybėmis.

GLIGEN palaiko suplanuotą mėginių ėmimą difuzijos procese, kad būtų galima daryti išvadas, kai modelis gali dinamiškai pasirinkti naudoti įžeminimo žetonus (pridedant naują sluoksnį) arba originalų difuzijos modelį su geru išankstiniu (išmesdamas naują sluoksnį) ir taip subalansuoti generavimo kokybę. ir įžeminimo gebėjimas.

GLIGEN gali generuoti įvairius objektus konkrečiose vietose ir stiliuose, panaudodamas žinias iš iš anksto parengto text2img modelio.

Susijęs straipsnis: „Microsoft“ išleido difuzijos modelį, kuris gali sukurti 3D avatarą iš vienos asmens nuotraukos

GLIGEN taip pat gali būti mokomas naudojant informacines nuotraukas. Viršutinėje eilutėje teigiama, kad nuorodos nuotraukos, be rašytinių aprašymų, gali suteikti smulkesnių savybių, tokių kaip automobilio stilius ir forma. Antroje eilutėje parodyta, kad atskaitos vaizdas taip pat gali būti naudojamas kaip stiliaus vaizdas. Tokiu atveju mes pastebime, kad pakanka įžeminti jį į vaizdo kampą arba kraštą.

GLIGEN, kaip ir kiti difuzijos modeliai, gali atlikti įžeminto vaizdo dažymą, kuris gali generuoti objektus, kurie labai atitinka tiekiamas ribojančias dėžutes.

GLIGEN taip pat gali įžeminti žmogaus pagrindinius taškus generuodamas tekstą į vaizdus. — GLIGEN taip pat gali įžeminti pagrindinius žmogaus taškus teksto į vaizdus generavimas.

Skaitykite daugiau apie AI:

Žymos:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.

Daugiau straipsnių

Damiras Jalalovas