GLIGEN: nov zamrznjeni model generiranja besedila v sliko z omejevalnim poljem
Na kratko
GLIGEN ali Grounded-Language-to-Image Generation je nova tehnika, ki nadgrajuje in razširja zmogljivost sedanjih vnaprej usposobljenih difuzijskih modelov.
Z vhodi pogojev napisov in omejevalnih okvirjev model GLIGEN ustvari text2img v odprtem svetu.
GLIGEN lahko ustvari različne predmete na določenih mestih in v slogih z izkoriščanjem znanja iz predhodno usposobljenega modela text2img.
GLIGEN lahko tudi ozemlji človeške ključne točke med ustvarjanjem besedila v slike.
Modeli difuzije besedila v sliko v velikem obsegu so daleč napredovali. Vendar se trenutna praksa zanaša samo na vnos besedila, kar lahko omeji nadzor. GLIGENali Grounded-Language-to-Image Generation je nova tehnika, ki nadgrajuje in razširja zmožnost trenutnih vnaprej usposobljenih modelov razširjanja besedila v sliko, tako da jim omogoča, da so pogojeni z ozemljenimi vhodi.
Da bi ohranili obsežno znanje o konceptu vnaprej usposobljenega modela, razvijalci zamrznejo vse njegove uteži in informacije o ozemljitvi prek nadzorovanega procesa črpajo v sveže učljive plasti. Z vhodi pogojev napisov in omejevalnih okvirjev model GLIGEN ustvari prizemljeno besedilo v sliko odprtega sveta, zmožnost ozemljitve pa se učinkovito posploši na nove prostorske konfiguracije in koncepte.
Odjaviti demo tukaj.
- GLIGEN temelji na obstoječem vnaprej usposobljenem difuzijski modeli, katerih prvotne teže so bile zamrznjene, da se ohranijo ogromne količine vnaprej usposobljenega znanja.
- Na vsakem transformatorskem bloku je ustvarjen nov sloj Gated Self-Attention, ki ga je mogoče učiti, da absorbira dodatno ozemljitev.
- Vsak ozemljitveni žeton ima dve vrsti informacij: semantične informacije o ozemljeni stvari (kodirano besedilo ali slika) in informacije o prostorskem položaju (kodirano omejevalno polje ali ključne točke).
Povezani članek: VToonify: model AI v realnem času za ustvarjanje umetniških portretnih videoposnetkov |
Povezani članek: Microsoft je izdal difuzijski model, ki lahko sestavi 3D avatar iz ene fotografije osebe |
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.