Nyhetsrapport Teknologi
Januari 24, 2023

GLIGEN: ny fryst text-till-bild-genereringsmodell med begränsningsram

I korthet

GLIGEN, eller Grounded-Language-to-Image Generation, är en ny teknik som bygger på och utökar kapaciteten hos nuvarande förtränade diffusionsmodeller.

Med ingångar för bildtext och begränsningsruta, genererar GLIGEN-modellen jordad text2img i öppen värld.

GLIGEN kan generera en mängd olika objekt på specifika platser och stilar genom att utnyttja kunskap från en förtränad text2img-modell.

GLIGEN kan också jorda mänskliga nyckelpunkter samtidigt som text-till-bilder genereras.

Storskaliga text-till-bild-diffusionsmodeller har kommit långt. Nuvarande praxis är dock att enbart förlita sig på textinmatning, vilket kan begränsa kontrollerbarheten. GLIGEN, eller Grounded-Language-to-Image Generation, är en ny teknik som bygger på och utökar kapaciteten hos nuvarande förtränade text-till-bild-diffusionsmodeller genom att tillåta dem att betingas av jordade ingångar.

GLIGEN: ny fryst text-till-bild-genereringsmodell med begränsningsram

För att upprätthålla den förtränade modellens omfattande konceptkunskap fryser utvecklarna alla dess vikter och pumpar jordningsinformationen till färska träningsbara lager via en kontrollerad process. Med ingångar för bildtext och begränsningsruta, genererar GLIGEN-modellen jordad text-till-bild i öppen värld, och jordningsförmågan generaliserar effektivt till nya rumsliga konfigurationer och koncept.

Kolla in demo här.

GLIGEN är baserad på befintliga förtränade diffusionsmodeller, vars originalvikter har frysts för att behålla enorma mängder förtränad kunskap.
  • GLIGEN är baserad på befintliga förutbildade diffusionsmodeller, vars ursprungliga vikter har frysts för att behålla enorma mängder förtränad kunskap.
  • Vid varje transformatorblock skapas ett nytt träningsbart Gated Self Attention-lager för att absorbera ytterligare jordingång.
  • Varje jordningstoken har två typer av information: semantisk information om den jordade saken (kodad text eller bild) och rumslig positionsinformation (kodad begränsningsruta eller nyckelpunkter).
Relaterad artikel: VToonify: En AI-modell i realtid för att generera konstnärliga porträttvideor
Nyligen tillagda modulerade lager förtränas kontinuerligt på massiv jordningsdata (bild-text-box), vilket är mer kostnadseffektivt än alternativa metoder för att använda en förtränad diffusionsmodell, såsom finjustering av hela modellen. I likhet med Lego kan olika tränade lager kopplas in och ut för att tillåta olika nya funktioner.
Nyligen tillagda modulerade lager förtränas kontinuerligt på massiva jordningsdata (bild-text-ruta). Detta är mer kostnadseffektivt än alternativa metoder för att använda en förutbildad diffusionsmodell, till exempel finjustering av hela modellen. I likhet med Lego kan olika tränade lager kopplas in och ut för att tillåta olika nya funktioner.
GLIGEN stöder schemalagd sampling i diffusionsprocessen för slutledning, där modellen dynamiskt kan välja att använda jordningstokens (genom att lägga till det nya lagret) eller den ursprungliga diffusionsmodellen med god förut (genom att sparka ut det nya lagret), och därmed balansera genereringskvaliteten och jordningsförmåga.
GLIGEN stöder schemalagd sampling i diffusionsprocessen för slutledning, där modellen dynamiskt kan välja att använda jordningstokens (genom att lägga till det nya lagret) eller den ursprungliga diffusionsmodellen med god förut (genom att sparka ut det nya lagret), och därmed balansera genereringskvaliteten och jordningsförmåga.
GLIGEN kan generera en mängd olika objekt på specifika platser och stilar genom att utnyttja kunskap från en förtränad text2img-modell.
GLIGEN kan generera en mängd olika objekt på specifika platser och stilar genom att utnyttja kunskap från en förtränad text2img-modell.
Relaterad artikel: Microsoft har släppt en diffusionsmodell som kan bygga en 3D-avatar från ett enda foto av en person
GLIGEN kan också tränas med hjälp av referensbilder.
GLIGEN kan också tränas med hjälp av referensbilder. Den översta raden antyder att referensfotografier, förutom skriftliga beskrivningar, kan ge mer finkorniga egenskaper som stil och form på bilen. Den andra raden visar att en referensbild också kan användas som en stilbild, i vilket fall vi upptäcker att det räcker med att jorda den i ett hörn eller en kant av en bild.
GLIGEN, liksom andra diffusionsmodeller, kan utföra jordad bildinpaint, vilket kan generera objekt som nära matchar medföljande begränsningsrutor.
GLIGEN, liksom andra diffusionsmodeller, kan utföra jordad bildinpaint, vilket kan generera objekt som nära matchar medföljande begränsningsrutor.
GLIGEN kan också jorda mänskliga nyckelpunkter samtidigt som text-till-bilder genereras.
GLIGEN kan också jorda mänskliga nyckelpunkter medan skapa text-till-bilder.

Läs mer om AI:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Företag Nyhetsrapport Teknologi
Injective går samman med AltLayer för att ge inEVM återupptagande säkerhet
Maj 3, 2024
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Marknader Nyhetsrapport Teknologi
Masa samarbetar med Teller för att introducera MASA Lending Pool, möjliggör USDC-lån på basen
Maj 3, 2024
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Marknader Nyhetsrapport Teknologi
Velodrome lanserar Superchain Beta-version under de kommande veckorna och expanderar över OP Stack Layer 2 Blockchains
Maj 3, 2024
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Företag Nyhetsrapport Teknologi
CARV tillkännager partnerskap med Aethir för att decentralisera sitt datalager och dela ut belöningar
Maj 3, 2024