Informe de notícies Tecnologia
Gener 24, 2023

GLIGEN: nou model de generació de text a imatge congelat amb quadre delimitador

En breu

GLIGEN, o Grounded-Language-to-Image Generation, és una tècnica nova que es basa i amplia la capacitat dels models de difusió actuals prèviament entrenats.

Amb les entrades de condició de subtítols i quadres delimitadors, el model GLIGEN genera text2img de món obert.

GLIGEN pot generar una varietat d'objectes en llocs i estils específics aprofitant el coneixement d'un model text2img preentrenat.

GLIGEN també pot fonamentar punts clau humans mentre genera text a imatges.

Els models de difusió de text a imatge a gran escala han recorregut un llarg camí. Tanmateix, la pràctica actual és confiar únicament en l'entrada de text, cosa que pot limitar la controlabilitat. GLIGEN, o Grounded-Language-to-Image Generation, és una tècnica novedosa que es basa i amplia la capacitat dels models de difusió de text a imatge pre-entrenats actuals, permetent que estiguin condicionats a les entrades de connexió a terra.

GLIGEN: nou model de generació de text a imatge congelat amb quadre delimitador

Per mantenir l'extens coneixement del concepte del model pre-entrenat, els desenvolupadors congelen tots els seus pesos i bombegen la informació de connexió a terra en capes entrenables noves mitjançant un procés controlat. Amb les entrades de condició de subtítols i quadres delimitadors, el model GLIGEN genera text-a-imatge basat en el món obert i la capacitat de connexió a terra es generalitza eficaçment a noves configuracions i conceptes espacials.

Fes una ullada a la Demo aquí.

GLIGEN es basa en models de difusió prèviament entrenats existents, els pesos originals dels quals s'han congelat per retenir quantitats massives de coneixements prèviament entrenats.
  • GLIGEN es basa en la formació prèvia existent models de difusió, els pesos originals dels quals s'han congelat per retenir grans quantitats de coneixements pre-entrenats.
  • A cada bloc de transformadors, es crea una nova capa d'autoatenció amb gated entrenable per absorbir l'entrada de terra addicional.
  • Cada testimoni de connexió a terra té dos tipus d'informació: informació semàntica sobre la cosa a terra (text codificat o imatge) i informació de posició espacial (quadre delimitador codificat o punts clau).
Article relacionat: VToonify: un model d'IA en temps real per generar vídeos de retrats artístics
Les capes modulades recentment afegides s'entrenen contínuament amb dades massives de connexió a terra (imatge-quadre de text), cosa que és més rendible que els mètodes alternatius d'utilitzar un model de difusió prèviament entrenat, com ara l'ajustament del model complet. De manera similar a Lego, es poden connectar i treure diferents capes entrenades per permetre noves capacitats.
Les capes modulades recentment afegides s'entrenen prèviament contínuament en dades massives de connexió a terra (imatge-quadre de text). Això és més rendible que els mètodes alternatius d'utilitzar un pre-entrenat model de difusió, com ara l'ajustament del model complet. De manera similar a Lego, es poden connectar i treure diferents capes entrenades per permetre noves capacitats.
GLIGEN admet el mostreig programat en el procés de difusió per a la inferència, on el model pot seleccionar dinàmicament per utilitzar fitxes de connexió a terra (afegint la nova capa) o el model de difusió original amb una bona prèvia (excloent la nova capa), i així equilibrar la qualitat de generació. i capacitat de connexió a terra.
GLIGEN admet el mostreig programat en el procés de difusió per a la inferència, on el model pot seleccionar dinàmicament per utilitzar fitxes de connexió a terra (afegint la nova capa) o el model de difusió original amb una bona prèvia (excloent la nova capa), i així equilibrar la qualitat de generació. i capacitat de connexió a terra.
GLIGEN pot generar una varietat d'objectes en llocs i estils específics aprofitant el coneixement d'un model text2img preentrenat.
GLIGEN pot generar una varietat d'objectes en llocs i estils específics aprofitant el coneixement d'un model text2img preentrenat.
Article relacionat: Microsoft ha llançat un model de difusió que pot crear un avatar 3D a partir d'una sola foto d'una persona
GLIGEN també es pot entrenar mitjançant imatges de referència.
GLIGEN també es pot entrenar mitjançant imatges de referència. La fila superior suggereix que les fotografies de referència, a més de les descripcions escrites, poden proporcionar característiques més fines, com ara l'estil i la forma del cotxe. La segona fila demostra que una imatge de referència també es pot utilitzar com a imatge d'estil, en aquest cas descobrim que n'hi ha prou amb posar-la a terra en una cantonada o vora d'una imatge.
GLIGEN, com altres models de difusió, pot realitzar una pintura d'imatge a terra, que pot generar objectes que coincideixen molt amb les caixes delimitadores subministrades.
GLIGEN, com altres models de difusió, pot realitzar una pintura d'imatge a terra, que pot generar objectes que coincideixen molt amb les caixes delimitadores subministrades.
GLIGEN també pot fonamentar punts clau humans mentre genera text a imatges.
GLIGEN també pot fonamentar punts clau humans mentre generació de text a imatges.

Llegeix més sobre AI:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Negocis Informe de notícies Tecnologia
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Pot 3, 2024
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
mercats Informe de notícies Tecnologia
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
Pot 3, 2024
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
mercats Informe de notícies Tecnologia
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
Pot 3, 2024
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Negocis Informe de notícies Tecnologia
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Pot 3, 2024
CRYPTOMERIA LABS PTE. LTD.