24. 2023. XNUMX.

GLIGEN: novi model za generiranje zamrznutog teksta u sliku s graničnim okvirom

Objavljeno: 24. siječnja 2023. u 5:00 Ažurirano: 21. ožujka 2024. u 11:40

Uređeno i provjereno: 24. siječnja 2023. u 5:00 sati

Ukratko

GLIGEN, ili Grounded-Language-to-Image Generation, nova je tehnika koja se nadograđuje i proširuje mogućnosti sadašnjih unaprijed obučenih modela difuzije.

S unosom uvjeta naslova i graničnog okvira, GLIGEN model generira utemeljeni text2img otvorenog svijeta.

GLIGEN može generirati različite objekte na određenim mjestima i u stilovima koristeći znanje iz unaprijed obučenog text2img modela.

GLIGEN također može uzemljiti ljudske ključne točke dok generira tekst u slike.

Modeli difuzije teksta u sliku velikih razmjera prešli su dug put. Međutim, trenutna praksa je oslanjanje isključivo na unos teksta, što može ograničiti mogućnost kontrole. GLIGEN, ili Grounded-Language-to-Image Generation, nova je tehnika koja se nadograđuje i proširuje sposobnost postojećih unaprijed obučenih modela difuzije teksta u sliku dopuštajući im da budu uvjetovani uzemljenim ulazima.

GLIGEN: novi model za generiranje zamrznutog teksta u sliku s graničnim okvirom

Kako bi održali opsežno znanje o konceptu prethodno obučenog modela, programeri zamrzavaju sve njegove težine i pumpaju informacije o uzemljenju u nove slojeve koji se mogu trenirati putem kontroliranog procesa. S unosom uvjeta opisa i graničnog okvira, GLIGEN model generira utemeljeni tekst otvorenog svijeta u sliku, a sposobnost uzemljenja učinkovito se generalizira na nove prostorne konfiguracije i koncepte.

Pogledajte demo ovdje.

GLIGEN se temelji na postojećim unaprijed obučenim modelima difuzije, čije su izvorne težine zamrznute kako bi se zadržale ogromne količine unaprijed obučenog znanja.

GLIGEN se temelji na postojećim prethodno obučenim difuzijski modeli, čije su izvorne težine zamrznute kako bi se zadržale ogromne količine prethodno obučenog znanja.
Na svakom transformatorskom bloku stvara se novi sloj Gated Self-Attention koji se može obučiti kako bi apsorbirao dodatni ulaz uzemljenja.
Svaki token za uzemljenje ima dvije vrste informacija: semantičke informacije o uzemljenoj stvari (kodirani tekst ili slika) i informacije o prostornom položaju (kodirani granični okvir ili ključne točke).

Povezani članak: VToonify: AI model u stvarnom vremenu za generiranje umjetničkih portretnih videa

Novododani modulirani slojevi kontinuirano se unaprijed obučavaju na masivnim podacima o uzemljenju (slika-tekstualni okvir), što je isplativije od alternativnih metoda korištenja prethodno obučenog modela difuzije, kao što je fino podešavanje cijelog modela. Slično Legu, različiti obučeni slojevi mogu se uključivati i isključivati kako bi se omogućile razne nove mogućnosti. — Novododani modulirani slojevi kontinuirano se unaprijed obučavaju na masivnim podacima o uzemljenju (slika-tekstualni okvir). Ovo je isplativije od alternativnih metoda korištenja prethodno obučenih difuzijski model, kao što je fino podešavanje cijelog modela. Slično Legu, različiti obučeni slojevi mogu se uključivati i isključivati kako bi se omogućile razne nove mogućnosti.

GLIGEN podržava planirano uzorkovanje u procesu difuzije za zaključivanje, gdje model može dinamički odabrati korištenje tokena uzemljenja (dodavanjem novog sloja) ili izvornog modela difuzije s dobrim prethodnim (izbacivanjem novog sloja), i tako uravnotežiti kvalitetu generiranja i sposobnost uzemljenja.

GLIGEN može generirati različite objekte na određenim mjestima i u stilovima koristeći znanje iz unaprijed obučenog text2img modela.

Povezani članak: Microsoft je objavio difuzijski model koji može napraviti 3D avatar od jedne fotografije osobe

GLIGEN se također može trenirati pomoću referentnih slika. Gornji red sugerira da referentne fotografije, uz pisane opise, mogu dati preciznije karakteristike kao što su stil i oblik automobila. Drugi red pokazuje da se referentna slika može koristiti i kao stilska slika, u kojem slučaju otkrivamo da je dovoljno uzemljenje u kut ili rub slike.

GLIGEN, kao i drugi difuzijski modeli, može izvršiti uzemljeno slikanje slika, koje može generirati objekte koji se blisko podudaraju s isporučenim graničnim okvirima.

GLIGEN također može uzemljiti ljudske ključne točke dok generira tekst u slike. — GLIGEN također može uzemljiti ljudske ključne točke dok generiranje teksta u slike.

Pročitajte više o AI:

Oznake:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.

Više članaka

Damir Yalalov