Januari 24, 2023

GLIGEN: ny fryst text-till-bild-genereringsmodell med begränsningsram

Publicerad: 24 januari 2023 kl. 5 Uppdaterad: 00 mars 21 kl. 2024

Redigerad och faktagranskad: 24 januari 2023 kl. 5

I korthet

GLIGEN, eller Grounded-Language-to-Image Generation, är en ny teknik som bygger på och utökar kapaciteten hos nuvarande förtränade diffusionsmodeller.

Med ingångar för bildtext och begränsningsruta, genererar GLIGEN-modellen jordad text2img i öppen värld.

GLIGEN kan generera en mängd olika objekt på specifika platser och stilar genom att utnyttja kunskap från en förtränad text2img-modell.

GLIGEN kan också jorda mänskliga nyckelpunkter samtidigt som text-till-bilder genereras.

Storskaliga text-till-bild-diffusionsmodeller har kommit långt. Nuvarande praxis är dock att enbart förlita sig på textinmatning, vilket kan begränsa kontrollerbarheten. GLIGEN, eller Grounded-Language-to-Image Generation, är en ny teknik som bygger på och utökar kapaciteten hos nuvarande förtränade text-till-bild-diffusionsmodeller genom att tillåta dem att betingas av jordade ingångar.

GLIGEN: ny fryst text-till-bild-genereringsmodell med begränsningsram

För att upprätthålla den förtränade modellens omfattande konceptkunskap fryser utvecklarna alla dess vikter och pumpar jordningsinformationen till färska träningsbara lager via en kontrollerad process. Med ingångar för bildtext och begränsningsruta, genererar GLIGEN-modellen jordad text-till-bild i öppen värld, och jordningsförmågan generaliserar effektivt till nya rumsliga konfigurationer och koncept.

Kolla in demo här.

GLIGEN är baserad på befintliga förtränade diffusionsmodeller, vars originalvikter har frysts för att behålla enorma mängder förtränad kunskap.

GLIGEN är baserad på befintliga förutbildade diffusionsmodeller, vars ursprungliga vikter har frysts för att behålla enorma mängder förtränad kunskap.
Vid varje transformatorblock skapas ett nytt träningsbart Gated Self Attention-lager för att absorbera ytterligare jordingång.
Varje jordningstoken har två typer av information: semantisk information om den jordade saken (kodad text eller bild) och rumslig positionsinformation (kodad begränsningsruta eller nyckelpunkter).

Relaterad artikel: VToonify: En AI-modell i realtid för att generera konstnärliga porträttvideor

Nyligen tillagda modulerade lager förtränas kontinuerligt på massiv jordningsdata (bild-text-box), vilket är mer kostnadseffektivt än alternativa metoder för att använda en förtränad diffusionsmodell, såsom finjustering av hela modellen. I likhet med Lego kan olika tränade lager kopplas in och ut för att tillåta olika nya funktioner. — Nyligen tillagda modulerade lager förtränas kontinuerligt på massiva jordningsdata (bild-text-ruta). Detta är mer kostnadseffektivt än alternativa metoder för att använda en förutbildad diffusionsmodell, till exempel finjustering av hela modellen. I likhet med Lego kan olika tränade lager kopplas in och ut för att tillåta olika nya funktioner.

GLIGEN stöder schemalagd sampling i diffusionsprocessen för slutledning, där modellen dynamiskt kan välja att använda jordningstokens (genom att lägga till det nya lagret) eller den ursprungliga diffusionsmodellen med god förut (genom att sparka ut det nya lagret), och därmed balansera genereringskvaliteten och jordningsförmåga.

GLIGEN kan generera en mängd olika objekt på specifika platser och stilar genom att utnyttja kunskap från en förtränad text2img-modell.

Relaterad artikel: Microsoft har släppt en diffusionsmodell som kan bygga en 3D-avatar från ett enda foto av en person

GLIGEN kan också tränas med hjälp av referensbilder. Den översta raden antyder att referensfotografier, förutom skriftliga beskrivningar, kan ge mer finkorniga egenskaper som stil och form på bilen. Den andra raden visar att en referensbild också kan användas som en stilbild, i vilket fall vi upptäcker att det räcker med att jorda den i ett hörn eller en kant av en bild.

GLIGEN, liksom andra diffusionsmodeller, kan utföra jordad bildinpaint, vilket kan generera objekt som nära matchar medföljande begränsningsrutor.

GLIGEN kan också jorda mänskliga nyckelpunkter samtidigt som text-till-bilder genereras. — GLIGEN kan också jorda mänskliga nyckelpunkter medan skapa text-till-bilder.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov