Vijesti Tehnologija
24. 2023. XNUMX.

GLIGEN: novi model za generiranje zamrznutog teksta u sliku s graničnim okvirom

Ukratko

GLIGEN, ili Grounded-Language-to-Image Generation, nova je tehnika koja se nadograđuje i proširuje mogućnosti sadašnjih unaprijed obučenih modela difuzije.

S unosom uvjeta naslova i graničnog okvira, GLIGEN model generira utemeljeni text2img otvorenog svijeta.

GLIGEN može generirati različite objekte na određenim mjestima i u stilovima koristeći znanje iz unaprijed obučenog text2img modela.

GLIGEN također može uzemljiti ljudske ključne točke dok generira tekst u slike.

Modeli difuzije teksta u sliku velikih razmjera prešli su dug put. Međutim, trenutna praksa je oslanjanje isključivo na unos teksta, što može ograničiti mogućnost kontrole. GLIGEN, ili Grounded-Language-to-Image Generation, nova je tehnika koja se nadograđuje i proširuje sposobnost postojećih unaprijed obučenih modela difuzije teksta u sliku dopuštajući im da budu uvjetovani uzemljenim ulazima.

GLIGEN: novi model za generiranje zamrznutog teksta u sliku s graničnim okvirom

Kako bi održali opsežno znanje o konceptu prethodno obučenog modela, programeri zamrzavaju sve njegove težine i pumpaju informacije o uzemljenju u nove slojeve koji se mogu trenirati putem kontroliranog procesa. S unosom uvjeta opisa i graničnog okvira, GLIGEN model generira utemeljeni tekst otvorenog svijeta u sliku, a sposobnost uzemljenja učinkovito se generalizira na nove prostorne konfiguracije i koncepte.

Pogledajte demo ovdje.

GLIGEN se temelji na postojećim unaprijed obučenim modelima difuzije, čije su izvorne težine zamrznute kako bi se zadržale ogromne količine unaprijed obučenog znanja.
  • GLIGEN se temelji na postojećim prethodno obučenim difuzijski modeli, čije su izvorne težine zamrznute kako bi se zadržale ogromne količine prethodno obučenog znanja.
  • Na svakom transformatorskom bloku stvara se novi sloj Gated Self-Attention koji se može obučiti kako bi apsorbirao dodatni ulaz uzemljenja.
  • Svaki token za uzemljenje ima dvije vrste informacija: semantičke informacije o uzemljenoj stvari (kodirani tekst ili slika) i informacije o prostornom položaju (kodirani granični okvir ili ključne točke).
Povezani članak: VToonify: AI model u stvarnom vremenu za generiranje umjetničkih portretnih videa
Novododani modulirani slojevi kontinuirano se unaprijed obučavaju na masivnim podacima o uzemljenju (slika-tekstualni okvir), što je isplativije od alternativnih metoda korištenja prethodno obučenog modela difuzije, kao što je fino podešavanje cijelog modela. Slično Legu, različiti obučeni slojevi mogu se uključivati ​​i isključivati ​​kako bi se omogućile razne nove mogućnosti.
Novododani modulirani slojevi kontinuirano se unaprijed obučavaju na masivnim podacima o uzemljenju (slika-tekstualni okvir). Ovo je isplativije od alternativnih metoda korištenja prethodno obučenih difuzijski model, kao što je fino podešavanje cijelog modela. Slično Legu, različiti obučeni slojevi mogu se uključivati ​​i isključivati ​​kako bi se omogućile razne nove mogućnosti.
GLIGEN podržava planirano uzorkovanje u procesu difuzije za zaključivanje, gdje model može dinamički odabrati korištenje tokena uzemljenja (dodavanjem novog sloja) ili izvornog modela difuzije s dobrim prethodnim (izbacivanjem novog sloja), i tako uravnotežiti kvalitetu generiranja i sposobnost uzemljenja.
GLIGEN podržava planirano uzorkovanje u procesu difuzije za zaključivanje, gdje model može dinamički odabrati korištenje tokena uzemljenja (dodavanjem novog sloja) ili izvornog modela difuzije s dobrim prethodnim (izbacivanjem novog sloja), i tako uravnotežiti kvalitetu generiranja i sposobnost uzemljenja.
GLIGEN može generirati različite objekte na određenim mjestima i u stilovima koristeći znanje iz unaprijed obučenog text2img modela.
GLIGEN može generirati različite objekte na određenim mjestima i u stilovima koristeći znanje iz unaprijed obučenog text2img modela.
Povezani članak: Microsoft je objavio difuzijski model koji može napraviti 3D avatar od jedne fotografije osobe
GLIGEN se također može trenirati pomoću referentnih slika.
GLIGEN se također može trenirati pomoću referentnih slika. Gornji red sugerira da referentne fotografije, uz pisane opise, mogu dati preciznije karakteristike kao što su stil i oblik automobila. Drugi red pokazuje da se referentna slika može koristiti i kao stilska slika, u kojem slučaju otkrivamo da je dovoljno uzemljenje u kut ili rub slike.
GLIGEN, kao i drugi difuzijski modeli, može izvršiti uzemljeno slikanje slika, koje može generirati objekte koji se blisko podudaraju s isporučenim graničnim okvirima.
GLIGEN, kao i drugi difuzijski modeli, može izvršiti uzemljeno slikanje slika, koje može generirati objekte koji se blisko podudaraju s isporučenim graničnim okvirima.
GLIGEN također može uzemljiti ljudske ključne točke dok generira tekst u slike.
GLIGEN također može uzemljiti ljudske ključne točke dok generiranje teksta u slike.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Injective udružuje snage s AltLayerom kako bi unio sigurnost ponovnog postavljanja na inEVM
posao Vijesti Tehnologija
Injective udružuje snage s AltLayerom kako bi unio sigurnost ponovnog postavljanja na inEVM
Neka 3, 2024
Masa se udružuje s Tellerom kako bi uveli MASA Lending Pool, omogućujući USDC posuđivanje na bazi
tržišta Vijesti Tehnologija
Masa se udružuje s Tellerom kako bi uveli MASA Lending Pool, omogućujući USDC posuđivanje na bazi
Neka 3, 2024
Velodrome lansira Superchain Beta verziju u nadolazećim tjednima i proširuje se na OP Stack Layer 2 Blockchains
tržišta Vijesti Tehnologija
Velodrome lansira Superchain Beta verziju u nadolazećim tjednima i proširuje se na OP Stack Layer 2 Blockchains
Neka 3, 2024
CARV najavljuje partnerstvo s Aethirom za decentralizaciju svog podatkovnog sloja i distribuciju nagrada
posao Vijesti Tehnologija
CARV najavljuje partnerstvo s Aethirom za decentralizaciju svog podatkovnog sloja i distribuciju nagrada
Neka 3, 2024
CRYPTOMERIA LABS PTE. LTD.