GLIGEN: novi model za generiranje zamrznutog teksta u sliku s graničnim okvirom
Ukratko
GLIGEN, ili Grounded-Language-to-Image Generation, nova je tehnika koja se nadograđuje i proširuje mogućnosti sadašnjih unaprijed obučenih modela difuzije.
S unosom uvjeta naslova i graničnog okvira, GLIGEN model generira utemeljeni text2img otvorenog svijeta.
GLIGEN može generirati različite objekte na određenim mjestima i u stilovima koristeći znanje iz unaprijed obučenog text2img modela.
GLIGEN također može uzemljiti ljudske ključne točke dok generira tekst u slike.
Modeli difuzije teksta u sliku velikih razmjera prešli su dug put. Međutim, trenutna praksa je oslanjanje isključivo na unos teksta, što može ograničiti mogućnost kontrole. GLIGEN, ili Grounded-Language-to-Image Generation, nova je tehnika koja se nadograđuje i proširuje sposobnost postojećih unaprijed obučenih modela difuzije teksta u sliku dopuštajući im da budu uvjetovani uzemljenim ulazima.
Kako bi održali opsežno znanje o konceptu prethodno obučenog modela, programeri zamrzavaju sve njegove težine i pumpaju informacije o uzemljenju u nove slojeve koji se mogu trenirati putem kontroliranog procesa. S unosom uvjeta opisa i graničnog okvira, GLIGEN model generira utemeljeni tekst otvorenog svijeta u sliku, a sposobnost uzemljenja učinkovito se generalizira na nove prostorne konfiguracije i koncepte.
Pogledajte demo ovdje.
- GLIGEN se temelji na postojećim prethodno obučenim difuzijski modeli, čije su izvorne težine zamrznute kako bi se zadržale ogromne količine prethodno obučenog znanja.
- Na svakom transformatorskom bloku stvara se novi sloj Gated Self-Attention koji se može obučiti kako bi apsorbirao dodatni ulaz uzemljenja.
- Svaki token za uzemljenje ima dvije vrste informacija: semantičke informacije o uzemljenoj stvari (kodirani tekst ili slika) i informacije o prostornom položaju (kodirani granični okvir ili ključne točke).
Povezani članak: Microsoft je objavio difuzijski model koji može napraviti 3D avatar od jedne fotografije osobe |
Pročitajte više o AI:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.