Novinová správa Technológia
Januára 24, 2023

GLIGEN: nový model generácie zmrazeného textu na obrázok s ohraničovacím rámčekom

Stručne

GLIGEN, alebo Grounded-Language-to-Image Generation, je nová technika, ktorá stavia na a rozširuje možnosti súčasných predtrénovaných modelov difúzie.

Model GLIGEN so vstupmi podmienok titulkov a ohraničenia generuje uzemnený text2img v otvorenom svete.

GLIGEN dokáže generovať rôzne objekty na konkrétnych miestach a štýloch využitím znalostí z vopred pripraveného modelu text2img.

GLIGEN môže tiež uzemňovať ľudské kľúčové body pri generovaní textu na obrázky.

Veľkoplošné modely šírenia textu na obrázok prešli dlhú cestu. Súčasná prax je však spoliehať sa výlučne na zadávanie textu, čo môže obmedziť ovládateľnosť. GLIGEN, alebo Grounded-Language-to-Image Generation, je nová technika, ktorá stavia na a rozširuje možnosti súčasných vopred pripravených modelov šírenia textu do obrazu tým, že im umožňuje, aby boli podmienené uzemňovacími vstupmi.

GLIGEN: nový model generácie zmrazeného textu na obrázok s ohraničovacím rámčekom

Aby sa zachovali rozsiahle koncepčné znalosti predtrénovaného modelu, vývojári zmrazia všetky jeho váhy a načerpajú informácie o uzemnení do nových trénovateľných vrstiev prostredníctvom kontrolovaného procesu. Model GLIGEN so vstupmi podmienok titulkov a ohraničenia generuje uzemnený text v otvorenom svete a schopnosť uzemnenia sa efektívne zovšeobecňuje na nové priestorové konfigurácie a koncepty.

Pozrite sa na demonštrácie tu.

GLIGEN je založený na existujúcich predtrénovaných modeloch difúzie, ktorých pôvodné váhy boli zmrazené, aby sa zachovalo obrovské množstvo predtrénovaných znalostí.
  • GLIGEN je založený na existujúcich predtrénovaných difúzne modely, ktorých pôvodné váhy boli zmrazené, aby sa zachovalo obrovské množstvo vopred vyškolených vedomostí.
  • Na každom transformátorovom bloku sa vytvorí nová trénovateľná vrstva Gated Self-Attention, ktorá absorbuje dodatočný uzemňovací vstup.
  • Každý uzemňovací token má dva typy informácií: sémantické informácie o uzemnenej veci (zakódovaný text alebo obrázok) a informácie o priestorovej polohe (zakódovaný ohraničujúci rámček alebo kľúčové body).
Súvisiaci článok: VToonify: Model AI v reálnom čase na vytváranie umeleckých portrétových videí
Novo pridané modulované vrstvy sú priebežne predtrénované na masívnych uzemňovacích dátach (obrázok-text-box), čo je nákladovo efektívnejšie ako alternatívne metódy použitia predtrénovaného modelu difúzie, ako je jemné ladenie celého modelu. Podobne ako v Lego je možné zapájať a odpájať rôzne trénované vrstvy, aby sa umožnili rôzne nové možnosti.
Novo pridané modulované vrstvy sú priebežne predtrénované na masívnych uzemňovacích dátach (obrázok-text-box). Je to nákladovo efektívnejšie ako alternatívne metódy použitia vopred vyškoleného difúzny model, ako je napríklad jemné doladenie celého modelu. Podobne ako v Lego je možné pripájať a odpájať rôzne trénované vrstvy, aby sa umožnili rôzne nové možnosti.
GLIGEN podporuje plánované vzorkovanie v procese difúzie na odvodenie, kde model môže dynamicky vybrať použitie uzemňovacích tokenov (pridaním novej vrstvy) alebo pôvodného modelu difúzie s dobrým predchádzajúcim (vyradením novej vrstvy), a tak vyvážiť kvalitu generovania. a uzemňovacia schopnosť.
GLIGEN podporuje plánované vzorkovanie v procese difúzie na odvodenie, kde model môže dynamicky vybrať použitie uzemňovacích tokenov (pridaním novej vrstvy) alebo pôvodného modelu difúzie s dobrým predchádzajúcim (vyradením novej vrstvy), a tak vyvážiť kvalitu generovania. a uzemňovacia schopnosť.
GLIGEN dokáže generovať rôzne objekty na konkrétnych miestach a štýloch využitím znalostí z vopred pripraveného modelu text2img.
GLIGEN dokáže generovať rôzne objekty na konkrétnych miestach a štýloch využitím znalostí z vopred pripraveného modelu text2img.
Súvisiaci článok: Microsoft vydal difúzny model, ktorý dokáže postaviť 3D avatara z jedinej fotografie osoby
GLIGEN je možné trénovať aj pomocou referenčných obrázkov.
GLIGEN je možné trénovať aj pomocou referenčných obrázkov. Horný riadok naznačuje, že referenčné fotografie môžu okrem písomných popisov poskytnúť jemnejšie charakteristiky, ako napríklad štýl a tvar auta. Druhý riadok demonštruje, že referenčný obrázok možno použiť aj ako obrázok štýlu, v takom prípade zistíme, že stačí umiestniť ho do rohu alebo okraja obrázka.
GLIGEN, podobne ako iné modely difúzie, dokáže vykonávať maľovanie uzemneného obrazu, ktoré dokáže generovať objekty, ktoré sa tesne zhodujú s dodanými ohraničovacími rámčekmi.
GLIGEN, podobne ako iné modely difúzie, dokáže vykonávať maľovanie uzemneného obrazu, ktoré dokáže generovať objekty, ktoré sa tesne zhodujú s dodanými ohraničovacími rámčekmi.
GLIGEN môže tiež uzemňovať ľudské kľúčové body pri generovaní textu na obrázky.
GLIGEN môže tiež uzemniť ľudské kľúčové body generovanie textu na obrázky.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.