Novinky Technika
Ledna 24, 2023

GLIGEN: nový model generování zmrazeného textu na obrázek s ohraničovacím rámečkem

Stručně

GLIGEN, neboli Grounded-Language-to-Image Generation, je nová technika, která staví na a rozšiřuje možnosti současných předtrénovaných modelů difúze.

Model GLIGEN se vstupy podmínek titulků a ohraničovacího rámečku generuje otevřený text uzemněný text2img.

GLIGEN dokáže generovat různé objekty na konkrétních místech a stylech využitím znalostí z předem připraveného modelu text2img.

GLIGEN může také uzemnit lidské klíčové body při generování textu na obrázky.

Velké modely difúze textu na obrázek ušly dlouhou cestu. Současná praxe je však spoléhat se pouze na zadávání textu, což může omezit ovladatelnost. GLIGEN, neboli Grounded-Language-to-Image Generation, je nová technika, která staví na a rozšiřuje možnosti současných předem trénovaných modelů šíření textu do obrazu tím, že jim umožňuje být podmíněny uzemňovacími vstupy.

GLIGEN: nový model generování zmrazeného textu na obrázek s ohraničovacím rámečkem

Aby vývojáři zachovali rozsáhlé znalosti konceptu předem trénovaného modelu, zmrazili všechny jeho váhy a přečerpali informace o uzemnění do nových trénovatelných vrstev prostřednictvím řízeného procesu. Se vstupy podmínek titulků a ohraničovacího rámečku model GLIGEN generuje uzemněný text na obrázek v otevřeném světě a schopnost uzemnění se efektivně zobecňuje na nové prostorové konfigurace a koncepty.

Podívejte se na demonstrace zde.

GLIGEN je založen na existujících předtrénovaných difúzních modelech, jejichž původní váhy byly zmrazeny, aby bylo zachováno obrovské množství předtrénovaných znalostí.
  • GLIGEN je založen na stávajících předtrénovaných difúzní modely, jehož původní váhy byly zmrazeny, aby bylo zachováno obrovské množství předem vyškolených znalostí.
  • Na každém bloku transformátoru je vytvořena nová trénovatelná vrstva Gated Self-Attention, která absorbuje další zemnící vstup.
  • Každý uzemňovací token má dva typy informací: sémantické informace o uzemněné věci (zakódovaný text nebo obrázek) a informace o prostorové poloze (zakódovaný ohraničující rámeček nebo klíčové body).
Související článek: VToonify: Model umělé inteligence v reálném čase pro generování uměleckých portrétních videí
Nově přidané modulované vrstvy jsou průběžně předtrénovány na masivních uzemňovacích datech (image-text-box), což je nákladově efektivnější než alternativní metody použití předtrénovaného modelu difúze, jako je jemné doladění celého modelu. Podobně jako u Lega lze zapojovat a odpojovat různé trénované vrstvy, což umožňuje různé nové schopnosti.
Nově přidané modulované vrstvy jsou průběžně předtrénovány na masivní data uzemnění (image-text-box). To je nákladově efektivnější než alternativní metody použití předem vyškolených difuzní model, jako je jemné doladění celého modelu. Podobně jako u Lega lze zapojovat a odpojovat různé trénované vrstvy, což umožňuje různé nové schopnosti.
GLIGEN podporuje plánované vzorkování v procesu difúze pro odvození, kde model může dynamicky vybrat použití uzemňovacích tokenů (přidáním nové vrstvy) nebo původního modelu difúze s dobrým předchozím (vyhozením nové vrstvy), a tak vyvážit kvalitu generování a uzemňovací schopnost.
GLIGEN podporuje plánované vzorkování v procesu difúze pro odvození, kde model může dynamicky vybrat použití uzemňovacích tokenů (přidáním nové vrstvy) nebo původního modelu difúze s dobrým předchozím (vyhozením nové vrstvy), a tak vyvážit kvalitu generování a uzemňovací schopnost.
GLIGEN dokáže generovat různé objekty na konkrétních místech a stylech využitím znalostí z předem připraveného modelu text2img.
GLIGEN dokáže generovat různé objekty na konkrétních místech a stylech využitím znalostí z předem připraveného modelu text2img.
Související článek: Microsoft vydal difúzní model, který dokáže sestavit 3D avatara z jediné fotografie člověka
GLIGEN lze také trénovat pomocí referenčních obrázků.
GLIGEN lze také trénovat pomocí referenčních obrázků. Horní řada naznačuje, že referenční fotografie mohou kromě písemných popisů poskytnout jemnější charakteristiky, jako je styl a tvar vozu. Druhý řádek ukazuje, že referenční obrázek lze také použít jako stylový obrázek, v takovém případě zjistíme, že postačí jeho uzemnění do rohu nebo okraje obrázku.
GLIGEN, stejně jako jiné modely difúze, může provádět překreslení uzemněného obrazu, které může generovat objekty, které se co nejvíce shodují s dodanými ohraničujícími rámečky.
GLIGEN, stejně jako jiné modely difúze, může provádět překreslení uzemněného obrazu, které může generovat objekty, které se co nejvíce shodují s dodanými ohraničujícími rámečky.
GLIGEN může také uzemnit lidské klíčové body při generování textu na obrázky.
GLIGEN může také uzemnit lidské klíčové body generování textu na obrázky.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.