Enero 24, 2023

GLIGEN: bagong naka-freeze na modelo ng henerasyon ng text-to-image na may bounding box

Na-publish: Enero 24, 2023 sa 5:00 pm Na-update: Marso 21, 2024 sa 11:40 am

Na-edit at na-fact check: Enero 24, 2023 nang 5:00 pm

Sa madaling sabi

Ang GLIGEN, o Grounded-Language-to-Image Generation, ay isang nobelang pamamaraan na bumubuo at nagpapalawak ng kakayahan ng mga kasalukuyang pre-trained na diffusion model.

Gamit ang caption at bounding box condition inputs, ang GLIGEN model ay bumubuo ng open-world grounded text2img.

Maaaring makabuo ang GLIGEN ng iba't ibang bagay sa mga partikular na lugar at istilo sa pamamagitan ng paggamit ng kaalaman mula sa isang pretrained na text2img na modelo.

Ang GLIGEN ay maaari ding mag-ground ng mga keypoint ng tao habang bumubuo ng text-to-images.

Malayo na ang narating ng mga malalaking modelo ng text-to-image diffusion. Gayunpaman, ang kasalukuyang kasanayan ay umasa lamang sa input ng text, na maaaring limitahan ang pagkontrol. GLIGEN, o Grounded-Language-to-Image Generation, ay isang nobelang pamamaraan na bumubuo at nagpapalawak ng kakayahan ng kasalukuyang mga pre-trained na text-to-image diffusion na mga modelo sa pamamagitan ng pagpayag sa mga ito na makondisyon sa mga grounding input.

GLIGEN: bagong naka-freeze na modelo ng henerasyon ng text-to-image na may bounding box

Upang mapanatili ang malawak na kaalaman sa konsepto ng pre-trained na modelo, i-freeze ng mga developer ang lahat ng mga timbang nito at i-pump ang impormasyon sa saligan sa mga bagong sanay na layer sa pamamagitan ng isang kinokontrol na proseso. Gamit ang caption at bounding box condition inputs, ang GLIGEN model ay bumubuo ng open-world grounded text-to-image, at ang grounding ability ay epektibong nagsa-generalize sa mga bagong spatial na configuration at konsepto.

Tingnan ang demo dito.

Ang GLIGEN ay batay sa mga umiiral nang pretrained diffusion na modelo, ang orihinal na timbang nito ay na-freeze upang mapanatili ang napakalaking halaga ng pre-trained na kaalaman.

Ang GLIGEN ay batay sa umiiral nang pre-trained mga modelo ng pagsasabog, ang orihinal na mga timbang ay na-freeze upang mapanatili ang napakalaking halaga ng paunang sinanay na kaalaman.
Sa bawat bloke ng transformer, isang bagong nasasanay na layer ng Gated Self-Attention ay nilikha upang sumipsip ng karagdagang grounding input.
Ang bawat grounding token ay may dalawang uri ng impormasyon: semantic na impormasyon tungkol sa pinagbabatayan na bagay (naka-encode na text o larawan) at spatial na impormasyon sa posisyon (naka-encode na bounding box o mga pangunahing punto).

Kaugnay na artikulo: VToonify: Isang real-time na modelo ng AI para sa pagbuo ng mga artistikong portrait na video

Ang mga bagong idinagdag na modulated na layer ay patuloy na na-pre-trained sa napakalaking grounding data (image-text-box), na mas cost-effective kaysa sa mga alternatibong paraan ng paggamit ng pretrained diffusion model, gaya ng full-model finetuning. Katulad ng Lego, ang iba't ibang sinanay na layer ay maaaring isaksak sa loob at labas upang payagan ang iba't ibang mga bagong kakayahan. — Ang mga bagong idinagdag na modulated na layer ay patuloy na sinasanay sa napakalaking grounding data (image-text-box). Ito ay mas cost-effective kaysa sa mga alternatibong paraan ng paggamit ng pre-trained modelo ng pagsasabog, gaya ng full-model finetuning. Katulad ng Lego, ang iba't ibang sinanay na mga layer ay maaaring isaksak sa loob at labas upang payagan ang iba't ibang mga bagong kakayahan.

Sinusuportahan ng GLIGEN ang naka-iskedyul na sampling sa proseso ng diffusion para sa inference, kung saan maaaring dynamic na piliin ng modelo na gumamit ng mga grounding token (sa pamamagitan ng pagdaragdag ng bagong layer) o ang orihinal na diffusion model na may magandang prior (sa pamamagitan ng pagsipa sa bagong layer), at sa gayon ay balansehin ang kalidad ng henerasyon at kakayahan sa saligan.

Maaaring makabuo ang GLIGEN ng iba't ibang bagay sa mga partikular na lugar at istilo sa pamamagitan ng paggamit ng kaalaman mula sa isang pretrained na text2img na modelo.

Kaugnay na artikulo: Naglabas ang Microsoft ng diffusion model na maaaring bumuo ng 3D avatar mula sa isang larawan ng isang tao

Ang GLIGEN ay maaari ding sanayin gamit ang mga reference na larawan. Iminumungkahi ng itaas na hilera na ang mga reference na larawan, bilang karagdagan sa mga nakasulat na paglalarawan, ay maaaring magbigay ng mas pinong mga katangian tulad ng istilo at hugis ng kotse. Ang pangalawang row ay nagpapakita na ang isang reference na imahe ay maaari ding gamitin bilang isang istilong imahe, kung saan natuklasan namin na ang paglalagay nito sa isang sulok o gilid ng isang imahe ay sapat na.

Ang GLIGEN, tulad ng iba pang mga diffusion model, ay maaaring magsagawa ng grounded image inpaint, na maaaring makabuo ng mga bagay na malapit na tumutugma sa mga ibinigay na bounding box.

Ang GLIGEN ay maaari ding mag-ground ng mga keypoint ng tao habang bumubuo ng text-to-images. — Ang GLIGEN ay maaari ding mag-ground ng mga pangunahing punto ng tao habang pagbuo ng text-to-images.

Magbasa pa tungkol sa AI:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Hot Stories

Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM

by Alisa Davidson

Mayo 03, 2024

Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base

by Alisa Davidson

Mayo 03, 2024

Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain

by Alisa Davidson

Mayo 03, 2024

Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala

by Alisa Davidson

Mayo 03, 2024

Pinakabagong Balita

Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM

by Alisa Davidson

Mayo 03, 2024

Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base

by Alisa Davidson

Mayo 03, 2024

Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain

by Alisa Davidson

Mayo 03, 2024

Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala

by Alisa Davidson

Mayo 03, 2024

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa