GLIGEN: nový model generování zmrazeného textu na obrázek s ohraničovacím rámečkem
Stručně
GLIGEN, neboli Grounded-Language-to-Image Generation, je nová technika, která staví na a rozšiřuje možnosti současných předtrénovaných modelů difúze.
Model GLIGEN se vstupy podmínek titulků a ohraničovacího rámečku generuje otevřený text uzemněný text2img.
GLIGEN dokáže generovat různé objekty na konkrétních místech a stylech využitím znalostí z předem připraveného modelu text2img.
GLIGEN může také uzemnit lidské klíčové body při generování textu na obrázky.
Velké modely difúze textu na obrázek ušly dlouhou cestu. Současná praxe je však spoléhat se pouze na zadávání textu, což může omezit ovladatelnost. GLIGEN, neboli Grounded-Language-to-Image Generation, je nová technika, která staví na a rozšiřuje možnosti současných předem trénovaných modelů šíření textu do obrazu tím, že jim umožňuje být podmíněny uzemňovacími vstupy.
Aby vývojáři zachovali rozsáhlé znalosti konceptu předem trénovaného modelu, zmrazili všechny jeho váhy a přečerpali informace o uzemnění do nových trénovatelných vrstev prostřednictvím řízeného procesu. Se vstupy podmínek titulků a ohraničovacího rámečku model GLIGEN generuje uzemněný text na obrázek v otevřeném světě a schopnost uzemnění se efektivně zobecňuje na nové prostorové konfigurace a koncepty.
Podívejte se na demonstrace zde.
- GLIGEN je založen na stávajících předtrénovaných difúzní modely, jehož původní váhy byly zmrazeny, aby bylo zachováno obrovské množství předem vyškolených znalostí.
- Na každém bloku transformátoru je vytvořena nová trénovatelná vrstva Gated Self-Attention, která absorbuje další zemnící vstup.
- Každý uzemňovací token má dva typy informací: sémantické informace o uzemněné věci (zakódovaný text nebo obrázek) a informace o prostorové poloze (zakódovaný ohraničující rámeček nebo klíčové body).
Související článek: VToonify: Model umělé inteligence v reálném čase pro generování uměleckých portrétních videí |
Související článek: Microsoft vydal difúzní model, který dokáže sestavit 3D avatara z jediné fotografie člověka |
Přečtěte si více o AI:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.