GLIGEN: ny fryst text-till-bild-genereringsmodell med begränsningsram
I korthet
GLIGEN, eller Grounded-Language-to-Image Generation, är en ny teknik som bygger på och utökar kapaciteten hos nuvarande förtränade diffusionsmodeller.
Med ingångar för bildtext och begränsningsruta, genererar GLIGEN-modellen jordad text2img i öppen värld.
GLIGEN kan generera en mängd olika objekt på specifika platser och stilar genom att utnyttja kunskap från en förtränad text2img-modell.
GLIGEN kan också jorda mänskliga nyckelpunkter samtidigt som text-till-bilder genereras.
Storskaliga text-till-bild-diffusionsmodeller har kommit långt. Nuvarande praxis är dock att enbart förlita sig på textinmatning, vilket kan begränsa kontrollerbarheten. GLIGEN, eller Grounded-Language-to-Image Generation, är en ny teknik som bygger på och utökar kapaciteten hos nuvarande förtränade text-till-bild-diffusionsmodeller genom att tillåta dem att betingas av jordade ingångar.
För att upprätthålla den förtränade modellens omfattande konceptkunskap fryser utvecklarna alla dess vikter och pumpar jordningsinformationen till färska träningsbara lager via en kontrollerad process. Med ingångar för bildtext och begränsningsruta, genererar GLIGEN-modellen jordad text-till-bild i öppen värld, och jordningsförmågan generaliserar effektivt till nya rumsliga konfigurationer och koncept.
Kolla in demo här.
- GLIGEN är baserad på befintliga förutbildade diffusionsmodeller, vars ursprungliga vikter har frysts för att behålla enorma mängder förtränad kunskap.
- Vid varje transformatorblock skapas ett nytt träningsbart Gated Self Attention-lager för att absorbera ytterligare jordingång.
- Varje jordningstoken har två typer av information: semantisk information om den jordade saken (kodad text eller bild) och rumslig positionsinformation (kodad begränsningsruta eller nyckelpunkter).
Relaterad artikel: Microsoft har släppt en diffusionsmodell som kan bygga en 3D-avatar från ett enda foto av en person |
Läs mer om AI:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.