Buletin de stiri Tehnologia
Ianuarie 24, 2023

GLIGEN: nou model de generare de text în imagine înghețat cu casetă de delimitare

Pe scurt

GLIGEN, sau Grounded-Language-to-Image Generation, este o tehnică nouă care se bazează pe și extinde capacitatea modelelor de difuzie pre-antrenate actuale.

Cu intrări de subtitrări și de condiție a căsuței de delimitare, modelul GLIGEN generează text2img cu pământ deschis.

GLIGEN poate genera o varietate de obiecte în locuri și stiluri specifice prin valorificarea cunoștințelor dintr-un model text2img pregătit în prealabil.

GLIGEN poate, de asemenea, să pună la punct punctele cheie umane în timp ce generează text în imagini.

Modelele de difuzie text-to-image la scară largă au parcurs un drum lung. Cu toate acestea, practica actuală este să se bazeze exclusiv pe introducerea textului, ceea ce poate limita controlabilitatea. GLIGEN, sau Grounded-Language-to-Image Generation, este o tehnică nouă care se bazează pe și extinde capacitatea modelelor actuale de difuzare text-la-imagine pre-antrenate, permițându-le să fie condiționate de intrările de împământare.

GLIGEN: nou model de generare de text în imagine înghețat cu casetă de delimitare

Pentru a menține cunoștințele extinse de concept ale modelului pre-antrenat, dezvoltatorii îngheață toate greutățile acestuia și pompează informațiile de împământare în straturi noi care pot fi antrenate printr-un proces controlat. Cu introducerea subtitrarilor și a căsuței de delimitare, modelul GLIGEN generează text-to-image bazat pe lume deschisă, iar capacitatea de împământare se generalizează eficient la configurații și concepte spațiale noi.

Check out Demo aici.

GLIGEN se bazează pe modele de difuzie pre-antrenate existente, ale căror greutăți inițiale au fost înghețate pentru a păstra cantități masive de cunoștințe pre-instruite.
  • GLIGEN se bazează pe pregătirea prealabilă existentă modele de difuzie, ale căror greutăți inițiale au fost înghețate pentru a păstra cantități masive de cunoștințe pre-instruite.
  • La fiecare bloc de transformare, este creat un nou strat de auto-atenție Gated care poate fi antrenat pentru a absorbi intrarea suplimentară de împământare.
  • Fiecare jeton de împământare are două tipuri de informații: informații semantice despre lucrul bazat pe pământ (text codificat sau imagine) și informații despre poziție spațială (caseta de delimitare codificată sau puncte cheie).
Articol asociat: VToonify: Un model AI în timp real pentru generarea de videoclipuri cu portrete artistice
Straturile modulate nou adăugate sunt pre-antrenate continuu pe date masive de împământare (image-text-box), ceea ce este mai rentabil decât metodele alternative de utilizare a unui model de difuzie preantrenat, cum ar fi reglarea fină a modelului complet. Similar cu Lego, diferite straturi antrenate pot fi conectate și scoase pentru a permite diferite capacități noi.
Straturile modulate nou adăugate sunt pre-antrenate continuu pe date masive de împământare (image-text-box). Acest lucru este mai rentabil decât metodele alternative de utilizare a unui pre-instruit model de difuzie, cum ar fi reglarea fină a modelului complet. Similar cu Lego, diferite straturi antrenate pot fi conectate și scoase pentru a permite diferite capacități noi.
GLIGEN acceptă eșantionarea programată în procesul de difuzie pentru inferență, în care modelul poate selecta în mod dinamic să utilizeze jetoane de împământare (prin adăugarea noului strat) sau modelul original de difuzie cu un prealabil bun (prin eliminarea noului strat) și astfel echilibra calitatea generației. și capacitatea de împământare.
GLIGEN acceptă eșantionarea programată în procesul de difuzie pentru inferență, în care modelul poate selecta în mod dinamic să utilizeze jetoane de împământare (prin adăugarea noului strat) sau modelul original de difuzie cu un prealabil bun (prin eliminarea noului strat) și astfel echilibra calitatea generației. și capacitatea de împământare.
GLIGEN poate genera o varietate de obiecte în locuri și stiluri specifice prin valorificarea cunoștințelor dintr-un model text2img pregătit în prealabil.
GLIGEN poate genera o varietate de obiecte în locuri și stiluri specifice prin valorificarea cunoștințelor dintr-un model text2img pregătit în prealabil.
Articol asociat: Microsoft a lansat un model de difuzie care poate construi un avatar 3D dintr-o singură fotografie a unei persoane
GLIGEN poate fi, de asemenea, antrenat folosind imagini de referință.
GLIGEN poate fi, de asemenea, antrenat folosind imagini de referință. Rândul de sus sugerează că fotografiile de referință, pe lângă descrierile scrise, pot oferi caracteristici mai fine, cum ar fi stilul și forma mașinii. Al doilea rând demonstrează că o imagine de referință poate fi utilizată și ca imagine de stil, caz în care descoperim că împământarea ei într-un colț sau marginea unei imagini este suficientă.
GLIGEN, la fel ca și alte modele de difuzie, poate realiza o vopsire a imaginii împământate, care poate genera obiecte care se potrivesc cu casetele de delimitare furnizate.
GLIGEN, la fel ca și alte modele de difuzie, poate realiza o vopsire a imaginii împământate, care poate genera obiecte care se potrivesc cu casetele de delimitare furnizate.
GLIGEN poate, de asemenea, să pună la punct punctele cheie umane în timp ce generează text în imagini.
GLIGEN poate, de asemenea, împământa puncte cheie umane în timp ce generarea text-to-imagini.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
Afaceri Buletin de stiri Tehnologia
Injective își unește forțele cu AltLayer pentru a aduce securitatea refacerii în EVM
3 Mai, 2024
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
pieţe Buletin de stiri Tehnologia
Masa face echipă cu Teller pentru a introduce grupul de împrumuturi MASA, care permite împrumuturile USDC pe bază
3 Mai, 2024
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
pieţe Buletin de stiri Tehnologia
Velodrome lansează versiunea Beta a Superchain în săptămânile următoare și se extinde în blockchainurile OP Stack Layer 2
3 Mai, 2024
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
Afaceri Buletin de stiri Tehnologia
CARV anunță parteneriat cu Aethir pentru a-și descentraliza stratul de date și a distribui recompense
3 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.