Janvāris 24, 2023

GLIGEN: jauns iesaldēta teksta-attēla paaudzes modelis ar ierobežojošo lodziņu

Publicēts: 24. gada 2023. janvārī plkst. 5:00 Atjaunināts: 21. gada 2024. martā plkst. 11:40

Rediģēts un pārbaudīts ar faktiem: 24. gada 2023. janvārī plkst. 5:00

Īsumā

GLIGEN jeb Grounded-Language-to-Image Generation ir jauna metode, kas balstās uz pašreizējiem iepriekš apmācītiem difūzijas modeļiem un paplašina to iespējas.

Izmantojot parakstu un ierobežojošo lodziņu nosacījumu ievadi, GLIGEN modelis ģenerē atvērtās pasaules iezemētu text2img.

GLIGEN var ģenerēt dažādus objektus noteiktās vietās un stilos, izmantojot zināšanas no iepriekš apmācīta text2img modeļa.

GLIGEN var arī iezemēt cilvēka atslēgas punktus, ģenerējot tekstu pārveidojot attēlus.

Liela mēroga teksta-attēlu difūzijas modeļi ir gājuši garu ceļu. Tomēr pašreizējā prakse ir paļauties tikai uz teksta ievadi, kas var ierobežot vadāmību. GLIGEN, vai iezemētas valodas–attēla ģenerēšana, ir jauna metode, kas balstās uz pašreizējiem iepriekš sagatavotiem teksta–attēla difūzijas modeļiem un paplašina to iespējas, ļaujot tos saistīt ar zemējuma ievadi.

GLIGEN: jauns iesaldēta teksta-attēla paaudzes modelis ar ierobežojošo lodziņu

Lai saglabātu iepriekš apmācītā modeļa plašās koncepcijas zināšanas, izstrādātāji iesaldē visus tā svarus un kontrolētā procesā sūknē zemējuma informāciju jaunos apmācāmos slāņos. Izmantojot parakstu un ierobežojošo lodziņu nosacījumu ievadi, GLIGEN modelis ģenerē atvērtas pasaules iezemētu tekstu-attēlu, un zemējuma spēja tiek efektīvi vispārināta jaunām telpiskām konfigurācijām un koncepcijām.

Izbraukšana demo šeit.

GLIGEN ir balstīts uz esošiem iepriekš apmācītiem difūzijas modeļiem, kuru sākotnējie svari ir iesaldēti, lai saglabātu milzīgu daudzumu iepriekš apmācītu zināšanu.

GLIGEN pamatā ir esošais iepriekš apmācīts difūzijas modeļi, kuru sākotnējie svari ir iesaldēti, lai saglabātu milzīgu daudzumu iepriekš apmācītu zināšanu.
Katrā transformatora blokā tiek izveidots jauns apmācāms pašuzmanības slānis, lai absorbētu papildu zemējuma ievadi.
Katrai zemējuma marķierim ir divu veidu informācija: semantiskā informācija par iezemēto lietu (kodēts teksts vai attēls) un telpiskās pozīcijas informācija (kodēta robežlodziņš vai atslēgas punkti).

Saistītais raksts: VToonify: reāllaika AI modelis māksliniecisku portretu video ģenerēšanai

Tikko pievienotie modulētie slāņi tiek nepārtraukti iepriekš apmācīti, izmantojot masīvus zemējuma datus (attēla teksta lodziņš), kas ir rentablāk nekā alternatīvas iepriekš apmācīta difūzijas modeļa izmantošanas metodes, piemēram, pilna modeļa precizēšana. Līdzīgi kā Lego, dažādus apmācītus slāņus var pievienot un izvadīt, lai nodrošinātu dažādas jaunas iespējas. — Tikko pievienotie modulētie slāņi tiek nepārtraukti iepriekš apmācīti, izmantojot masīvus zemējuma datus (attēla tekstlodziņš). Tas ir ekonomiski izdevīgāk nekā alternatīvas iepriekš apmācītas metodes difūzijas modelis, piemēram, pilna modeļa precizēšana. Līdzīgi kā Lego, dažādus apmācītus slāņus var pievienot un izslēgt, lai nodrošinātu dažādas jaunas iespējas.

GLIGEN atbalsta plānoto paraugu ņemšanu difūzijas procesā, lai izdarītu secinājumus, kur modelis var dinamiski izvēlēties izmantot zemējuma marķierus (pievienojot jaunu slāni) vai sākotnējo difūzijas modeli ar labu pirms (izmetot jauno slāni), un tādējādi līdzsvarot paaudzes kvalitāti. un zemējuma spēja.

GLIGEN var ģenerēt dažādus objektus noteiktās vietās un stilos, izmantojot zināšanas no iepriekš apmācīta text2img modeļa.

Saistītais raksts: Microsoft ir izlaidusi difūzijas modeli, kas var izveidot 3D iemiesojumu no viena cilvēka fotoattēla

GLIGEN var apmācīt arī, izmantojot atsauces attēlus. Augšējā rinda liek domāt, ka atsauces fotogrāfijas papildus rakstiskiem aprakstiem var nodrošināt smalkākas īpašības, piemēram, automašīnas stilu un formu. Otrā rinda parāda, ka atsauces attēlu var izmantot arī kā stila attēlu, un tādā gadījumā mēs atklājam, ka pietiek ar tā iezemēšanu attēla stūrī vai malā.

GLIGEN, tāpat kā citi difūzijas modeļi, var veikt iezemētu attēla iekrāsošanu, kas var ģenerēt objektus, kas cieši atbilst piegādātajām ierobežojošajām kastēm.

GLIGEN var arī iezemēt cilvēka atslēgas punktus, ģenerējot tekstu pārveidojot attēlus. — GLIGEN var arī iezemēt cilvēka galvenos punktus teksta-attēlu ģenerēšana.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs