Ziņojums Tehnoloģija
Janvāris 24, 2023

GLIGEN: jauns iesaldēta teksta-attēla paaudzes modelis ar ierobežojošo lodziņu

Īsumā

GLIGEN jeb Grounded-Language-to-Image Generation ir jauna metode, kas balstās uz pašreizējiem iepriekš apmācītiem difūzijas modeļiem un paplašina to iespējas.

Izmantojot parakstu un ierobežojošo lodziņu nosacījumu ievadi, GLIGEN modelis ģenerē atvērtās pasaules iezemētu text2img.

GLIGEN var ģenerēt dažādus objektus noteiktās vietās un stilos, izmantojot zināšanas no iepriekš apmācīta text2img modeļa.

GLIGEN var arī iezemēt cilvēka atslēgas punktus, ģenerējot tekstu pārveidojot attēlus.

Liela mēroga teksta-attēlu difūzijas modeļi ir gājuši garu ceļu. Tomēr pašreizējā prakse ir paļauties tikai uz teksta ievadi, kas var ierobežot vadāmību. GLIGEN, vai iezemētas valodas–attēla ģenerēšana, ir jauna metode, kas balstās uz pašreizējiem iepriekš sagatavotiem teksta–attēla difūzijas modeļiem un paplašina to iespējas, ļaujot tos saistīt ar zemējuma ievadi.

GLIGEN: jauns iesaldēta teksta-attēla paaudzes modelis ar ierobežojošo lodziņu

Lai saglabātu iepriekš apmācītā modeļa plašās koncepcijas zināšanas, izstrādātāji iesaldē visus tā svarus un kontrolētā procesā sūknē zemējuma informāciju jaunos apmācāmos slāņos. Izmantojot parakstu un ierobežojošo lodziņu nosacījumu ievadi, GLIGEN modelis ģenerē atvērtas pasaules iezemētu tekstu-attēlu, un zemējuma spēja tiek efektīvi vispārināta jaunām telpiskām konfigurācijām un koncepcijām.

Izbraukšana demo šeit.

GLIGEN ir balstīts uz esošiem iepriekš apmācītiem difūzijas modeļiem, kuru sākotnējie svari ir iesaldēti, lai saglabātu milzīgu daudzumu iepriekš apmācītu zināšanu.
  • GLIGEN pamatā ir esošais iepriekš apmācīts difūzijas modeļi, kuru sākotnējie svari ir iesaldēti, lai saglabātu milzīgu daudzumu iepriekš apmācītu zināšanu.
  • Katrā transformatora blokā tiek izveidots jauns apmācāms pašuzmanības slānis, lai absorbētu papildu zemējuma ievadi.
  • Katrai zemējuma marķierim ir divu veidu informācija: semantiskā informācija par iezemēto lietu (kodēts teksts vai attēls) un telpiskās pozīcijas informācija (kodēta robežlodziņš vai atslēgas punkti).
Saistītais raksts: VToonify: reāllaika AI modelis māksliniecisku portretu video ģenerēšanai
Tikko pievienotie modulētie slāņi tiek nepārtraukti iepriekš apmācīti, izmantojot masīvus zemējuma datus (attēla teksta lodziņš), kas ir rentablāk nekā alternatīvas iepriekš apmācīta difūzijas modeļa izmantošanas metodes, piemēram, pilna modeļa precizēšana. Līdzīgi kā Lego, dažādus apmācītus slāņus var pievienot un izvadīt, lai nodrošinātu dažādas jaunas iespējas.
Tikko pievienotie modulētie slāņi tiek nepārtraukti iepriekš apmācīti, izmantojot masīvus zemējuma datus (attēla tekstlodziņš). Tas ir ekonomiski izdevīgāk nekā alternatīvas iepriekš apmācītas metodes difūzijas modelis, piemēram, pilna modeļa precizēšana. Līdzīgi kā Lego, dažādus apmācītus slāņus var pievienot un izslēgt, lai nodrošinātu dažādas jaunas iespējas.
GLIGEN atbalsta plānoto paraugu ņemšanu difūzijas procesā, lai izdarītu secinājumus, kur modelis var dinamiski izvēlēties izmantot zemējuma marķierus (pievienojot jaunu slāni) vai sākotnējo difūzijas modeli ar labu pirms (izmetot jauno slāni), un tādējādi līdzsvarot paaudzes kvalitāti. un zemējuma spēja.
GLIGEN atbalsta plānoto paraugu ņemšanu difūzijas procesā, lai izdarītu secinājumus, kur modelis var dinamiski izvēlēties izmantot zemējuma marķierus (pievienojot jaunu slāni) vai sākotnējo difūzijas modeli ar labu pirms (izmetot jauno slāni), un tādējādi līdzsvarot paaudzes kvalitāti. un zemējuma spēja.
GLIGEN var ģenerēt dažādus objektus noteiktās vietās un stilos, izmantojot zināšanas no iepriekš apmācīta text2img modeļa.
GLIGEN var ģenerēt dažādus objektus noteiktās vietās un stilos, izmantojot zināšanas no iepriekš apmācīta text2img modeļa.
Saistītais raksts: Microsoft ir izlaidusi difūzijas modeli, kas var izveidot 3D iemiesojumu no viena cilvēka fotoattēla
GLIGEN var apmācīt arī, izmantojot atsauces attēlus.
GLIGEN var apmācīt arī, izmantojot atsauces attēlus. Augšējā rinda liek domāt, ka atsauces fotogrāfijas papildus rakstiskiem aprakstiem var nodrošināt smalkākas īpašības, piemēram, automašīnas stilu un formu. Otrā rinda parāda, ka atsauces attēlu var izmantot arī kā stila attēlu, un tādā gadījumā mēs atklājam, ka pietiek ar tā iezemēšanu attēla stūrī vai malā.
GLIGEN, tāpat kā citi difūzijas modeļi, var veikt iezemētu attēla iekrāsošanu, kas var ģenerēt objektus, kas cieši atbilst piegādātajām ierobežojošajām kastēm.
GLIGEN, tāpat kā citi difūzijas modeļi, var veikt iezemētu attēla iekrāsošanu, kas var ģenerēt objektus, kas cieši atbilst piegādātajām ierobežojošajām kastēm.
GLIGEN var arī iezemēt cilvēka atslēgas punktus, ģenerējot tekstu pārveidojot attēlus.
GLIGEN var arī iezemēt cilvēka galvenos punktus teksta-attēlu ģenerēšana.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Nepastāvības apstākļos institucionālā apetīte pieaug pret Bitcoin ETF

Informācijas atklāšana, izmantojot 13F pieteikumus, atklāj ievērojamus institucionālos investorus, kas iesaistās Bitcoin ETF, uzsverot pieaugošo pieņemšanu ...

Uzziniet vairāk

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Injective apvieno spēkus ar AltLayer, lai nodrošinātu atkārtotu inEVM drošību
bizness Ziņojums Tehnoloģija
Injective apvieno spēkus ar AltLayer, lai nodrošinātu atkārtotu inEVM drošību
3. gada 2024. maijs
Masa sadarbojas ar Teller, lai ieviestu MASA aizdevumu fondu, ļaujot USDC aizņemties bāzē
Markets Ziņojums Tehnoloģija
Masa sadarbojas ar Teller, lai ieviestu MASA aizdevumu fondu, ļaujot USDC aizņemties bāzē
3. gada 2024. maijs
Velodrome nākamajās nedēļās izlaiž Superchain Beta versiju un izvēršas visās OP Stack Layer 2 blokķēdes
Markets Ziņojums Tehnoloģija
Velodrome nākamajās nedēļās izlaiž Superchain Beta versiju un izvēršas visās OP Stack Layer 2 blokķēdes
3. gada 2024. maijs
CARV paziņo par sadarbību ar Aethir, lai decentralizētu savu datu slāni un sadalītu atlīdzības
bizness Ziņojums Tehnoloģija
CARV paziņo par sadarbību ar Aethir, lai decentralizētu savu datu slāni un sadalītu atlīdzības
3. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.