Novice Tehnologija
Januar 24, 2023

GLIGEN: nov zamrznjeni model generiranja besedila v sliko z omejevalnim poljem

Na kratko

GLIGEN ali Grounded-Language-to-Image Generation je nova tehnika, ki nadgrajuje in razširja zmogljivost sedanjih vnaprej usposobljenih difuzijskih modelov.

Z vhodi pogojev napisov in omejevalnih okvirjev model GLIGEN ustvari text2img v odprtem svetu.

GLIGEN lahko ustvari različne predmete na določenih mestih in v slogih z izkoriščanjem znanja iz predhodno usposobljenega modela text2img.

GLIGEN lahko tudi ozemlji človeške ključne točke med ustvarjanjem besedila v slike.

Modeli difuzije besedila v sliko v velikem obsegu so daleč napredovali. Vendar se trenutna praksa zanaša samo na vnos besedila, kar lahko omeji nadzor. GLIGENali Grounded-Language-to-Image Generation je nova tehnika, ki nadgrajuje in razširja zmožnost trenutnih vnaprej usposobljenih modelov razširjanja besedila v sliko, tako da jim omogoča, da so pogojeni z ozemljenimi vhodi.

GLIGEN: nov zamrznjeni model generiranja besedila v sliko z omejevalnim poljem

Da bi ohranili obsežno znanje o konceptu vnaprej usposobljenega modela, razvijalci zamrznejo vse njegove uteži in informacije o ozemljitvi prek nadzorovanega procesa črpajo v sveže učljive plasti. Z vhodi pogojev napisov in omejevalnih okvirjev model GLIGEN ustvari prizemljeno besedilo v sliko odprtega sveta, zmožnost ozemljitve pa se učinkovito posploši na nove prostorske konfiguracije in koncepte.

Odjaviti demo tukaj.

GLIGEN temelji na obstoječih vnaprej usposobljenih difuzijskih modelih, katerih prvotne uteži so bile zamrznjene, da se ohranijo ogromne količine vnaprej usposobljenega znanja.
  • GLIGEN temelji na obstoječem vnaprej usposobljenem difuzijski modeli, katerih prvotne teže so bile zamrznjene, da se ohranijo ogromne količine vnaprej usposobljenega znanja.
  • Na vsakem transformatorskem bloku je ustvarjen nov sloj Gated Self-Attention, ki ga je mogoče učiti, da absorbira dodatno ozemljitev.
  • Vsak ozemljitveni žeton ima dve vrsti informacij: semantične informacije o ozemljeni stvari (kodirano besedilo ali slika) in informacije o prostorskem položaju (kodirano omejevalno polje ali ključne točke).
Povezani članek: VToonify: model AI v realnem času za ustvarjanje umetniških portretnih videoposnetkov
Na novo dodani modulirani sloji se nenehno vnaprej usposabljajo na masivnih podatkih o ozemljitvi (slika-besedilno polje), kar je stroškovno učinkovitejše od alternativnih metod uporabe vnaprej naučenega difuzijskega modela, kot je natančna nastavitev celotnega modela. Podobno kot pri Legu je mogoče priklopiti in izklapljati različne usposobljene plasti, da se omogočijo različne nove zmogljivosti.
Na novo dodani modulirani sloji se nenehno predhodno usposabljajo na masivnih podatkih o ozemljitvi (slika-besedilno polje). To je stroškovno učinkovitejše od alternativnih metod uporabe predhodno usposobljenih difuzijski model, kot je natančna nastavitev celotnega modela. Podobno kot pri Legu je mogoče priklopiti in izklapljati različne usposobljene plasti, da se omogočijo različne nove zmogljivosti.
GLIGEN podpira načrtovano vzorčenje v difuzijskem procesu za sklepanje, kjer lahko model dinamično izbere uporabo ozemljitvenih žetonov (z dodajanjem nove plasti) ali prvotnega modela difuzije z dobrim predhodnim (z izločitvijo nove plasti) in tako uravnoteži kakovost generiranja in sposobnost ozemljitve.
GLIGEN podpira načrtovano vzorčenje v difuzijskem procesu za sklepanje, kjer lahko model dinamično izbere uporabo ozemljitvenih žetonov (z dodajanjem nove plasti) ali prvotnega modela difuzije z dobrim predhodnim (z izločitvijo nove plasti) in tako uravnoteži kakovost generiranja in sposobnost ozemljitve.
GLIGEN lahko ustvari različne predmete na določenih mestih in v slogih z izkoriščanjem znanja iz predhodno usposobljenega modela text2img.
GLIGEN lahko ustvari različne predmete na določenih mestih in v slogih z izkoriščanjem znanja iz predhodno usposobljenega modela text2img.
Povezani članek: Microsoft je izdal difuzijski model, ki lahko sestavi 3D avatar iz ene fotografije osebe
GLIGEN se lahko usposobi tudi z uporabo referenčnih slik.
GLIGEN se lahko usposobi tudi z uporabo referenčnih slik. Zgornja vrstica nakazuje, da lahko referenčne fotografije poleg pisnih opisov zagotovijo bolj natančne značilnosti, kot sta slog in oblika avtomobila. Druga vrstica dokazuje, da je referenčno sliko mogoče uporabiti tudi kot slogovno sliko, v tem primeru odkrijemo, da zadostuje prizemljitev v kotu ali robu slike.
GLIGEN, tako kot drugi difuzijski modeli, lahko izvede ozemljeno sliko inpaint, ki lahko ustvari predmete, ki se zelo ujemajo s priloženimi omejevalnimi okvirji.
GLIGEN, tako kot drugi difuzijski modeli, lahko izvede ozemljeno sliko inpaint, ki lahko ustvari predmete, ki se zelo ujemajo s priloženimi omejevalnimi okvirji.
GLIGEN lahko tudi ozemlji človeške ključne točke med ustvarjanjem besedila v slike.
GLIGEN lahko prizemlji tudi človeške ključne točke, medtem ko generiranje besedila v slike.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
ŽELITE POSTATI PARTNER Novice Tehnologija
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
Maj 3, 2024
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Prisotnost Novice Tehnologija
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Maj 3, 2024
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Prisotnost Novice Tehnologija
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Maj 3, 2024
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
ŽELITE POSTATI PARTNER Novice Tehnologija
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
Maj 3, 2024
CRYPTOMERIA LABS PTE. LTD.