GLIGEN: nový model generácie zmrazeného textu na obrázok s ohraničovacím rámčekom
Stručne
GLIGEN, alebo Grounded-Language-to-Image Generation, je nová technika, ktorá stavia na a rozširuje možnosti súčasných predtrénovaných modelov difúzie.
Model GLIGEN so vstupmi podmienok titulkov a ohraničenia generuje uzemnený text2img v otvorenom svete.
GLIGEN dokáže generovať rôzne objekty na konkrétnych miestach a štýloch využitím znalostí z vopred pripraveného modelu text2img.
GLIGEN môže tiež uzemňovať ľudské kľúčové body pri generovaní textu na obrázky.
Veľkoplošné modely šírenia textu na obrázok prešli dlhú cestu. Súčasná prax je však spoliehať sa výlučne na zadávanie textu, čo môže obmedziť ovládateľnosť. GLIGEN, alebo Grounded-Language-to-Image Generation, je nová technika, ktorá stavia na a rozširuje možnosti súčasných vopred pripravených modelov šírenia textu do obrazu tým, že im umožňuje, aby boli podmienené uzemňovacími vstupmi.
Aby sa zachovali rozsiahle koncepčné znalosti predtrénovaného modelu, vývojári zmrazia všetky jeho váhy a načerpajú informácie o uzemnení do nových trénovateľných vrstiev prostredníctvom kontrolovaného procesu. Model GLIGEN so vstupmi podmienok titulkov a ohraničenia generuje uzemnený text v otvorenom svete a schopnosť uzemnenia sa efektívne zovšeobecňuje na nové priestorové konfigurácie a koncepty.
Pozrite sa na demonštrácie tu.
- GLIGEN je založený na existujúcich predtrénovaných difúzne modely, ktorých pôvodné váhy boli zmrazené, aby sa zachovalo obrovské množstvo vopred vyškolených vedomostí.
- Na každom transformátorovom bloku sa vytvorí nová trénovateľná vrstva Gated Self-Attention, ktorá absorbuje dodatočný uzemňovací vstup.
- Každý uzemňovací token má dva typy informácií: sémantické informácie o uzemnenej veci (zakódovaný text alebo obrázok) a informácie o priestorovej polohe (zakódovaný ohraničujúci rámček alebo kľúčové body).
Súvisiaci článok: Microsoft vydal difúzny model, ktorý dokáže postaviť 3D avatara z jedinej fotografie osoby |
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.