Uudiste reportaaž Tehnoloogia
Jaanuar 24, 2023

GLIGEN: uus külmutatud tekstist pildiks genereerimise mudel piirdekastiga

Põgusalt

GLIGEN ehk Grounded-Language-to-Image Generation on uudne tehnika, mis põhineb praegustel eelkoolitatud difusioonimudelitel ja laiendab nende võimekust.

Tiitrite ja piirdekasti tingimuste sisenditega genereerib GLIGEN-mudel avatud maailma maandatud text2img.

GLIGEN suudab genereerida mitmesuguseid objekte kindlates kohtades ja stiilides, kasutades selleks eelnevalt koolitatud text2img mudeli teadmisi.

GLIGEN võib tekstist kujutisteks genereerides ka inimeste võtmepunkte maandada.

Suuremahulised tekstist pildiks levitamise mudelid on jõudnud kaugele. Praegune tava on aga tugineda ainult tekstisisendile, mis võib piirata juhitavust. GLIGEN, ehk maandatud keelest pildiks genereerimine, on uudne tehnika, mis tugineb praegustele eelkoolitatud teksti-pildiks difusioonimudelitele ja laiendab nende võimekust, võimaldades neid konditsioneerida maandussisenditel.

GLIGEN: uus külmutatud tekstist pildiks genereerimise mudel piirdekastiga

Eelkoolitatud mudeli laialdaste kontseptsiooniteadmiste säilitamiseks külmutavad arendajad selle kõik kaalud ja pumpavad maandusteabe kontrollitud protsessi kaudu värsketesse treenitavatesse kihtidesse. Tiitrite ja piirdekasti tingimuste sisenditega genereerib GLIGEN-mudel avatud maailma maandatud tekstist pildiks ja maandusvõime üldistatakse tõhusalt uudsete ruumiliste konfiguratsioonide ja kontseptsioonidega.

Tutvu demo siin.

GLIGEN põhineb olemasolevatel eelkoolitatud difusioonimudelitel, mille algsed kaalud on külmutatud, et säilitada tohutul hulgal eelkoolitatud teadmisi.
  • GLIGEN põhineb olemasoleval eelkoolitatud difusioonimudelid, mille algsed kaalud on külmutatud, et säilitada tohutul hulgal eelkoolitatud teadmisi.
  • Iga trafoploki juures luuakse uus treenitav väravaga enesetähelepanu kiht, et neelata täiendavat maandussisendit.
  • Igal maandusmärgil on kahte tüüpi teavet: semantiline teave maandatud asja kohta (kodeeritud tekst või pilt) ja ruumilise asukoha teave (kodeeritud piirdekast või võtmepunktid).
Seotud artikkel: VToonify: reaalajas tehisintellekti mudel kunstiliste portreevideote loomiseks
Äsja lisatud moduleeritud kihte treenitakse pidevalt massiivsete maandusandmete põhjal (pilt-tekst-kast), mis on kuluefektiivsem kui alternatiivsed meetodid eeltreenitud difusioonimudeli kasutamiseks, näiteks täismudeli peenhäälestus. Sarnaselt Legole saab erinevaid treenitud kihte ühendada ja välja lülitada, et võimaldada erinevaid uusi võimalusi.
Äsja lisatud moduleeritud kihte treenitakse pidevalt massiivsete maandusandmete põhjal (pilt-tekst-kast). See on kuluefektiivsem kui alternatiivsed meetodid eelkoolitatud seadme kasutamiseks difusioonimudel, nagu täismudeli peenhäälestus. Sarnaselt Legole saab erinevaid treenitud kihte ühendada ja välja lülitada, et võimaldada erinevaid uusi võimalusi.
GLIGEN toetab plaanipärast proovivõttu difusiooniprotsessis järelduste tegemiseks, kus mudel saab dünaamiliselt valida, kas kasutada maandusmärke (lisades uue kihi) või algset difusioonimudelit hea eelnevaga (viskades välja uue kihi) ja seega genereerimise kvaliteeti tasakaalustada. ja maandusvõime.
GLIGEN toetab plaanipärast proovivõttu difusiooniprotsessis järelduste tegemiseks, kus mudel saab dünaamiliselt valida, kas kasutada maandusmärke (lisades uue kihi) või algset difusioonimudelit hea eelnevaga (viskades välja uue kihi) ja seega genereerimise kvaliteeti tasakaalustada. ja maandusvõime.
GLIGEN suudab genereerida mitmesuguseid objekte kindlates kohtades ja stiilides, kasutades selleks eelnevalt koolitatud text2img mudeli teadmisi.
GLIGEN suudab genereerida mitmesuguseid objekte kindlates kohtades ja stiilides, kasutades selleks eelnevalt koolitatud text2img mudeli teadmisi.
Seotud artikkel: Microsoft on välja andnud difusioonimudeli, mis suudab luua 3D-avatari ühest inimese fotost
GLIGENi saab treenida ka võrdluspiltide abil.
GLIGENi saab treenida ka võrdluspiltide abil. Ülemine rida viitab sellele, et võrdlusfotod võivad lisaks kirjalikele kirjeldustele anda peeneteralisemaid omadusi, nagu auto stiil ja kuju. Teine rida näitab, et võrdluspilti saab kasutada ka stiilikujutisena, mille puhul avastame, et piisab selle maandamisest pildi nurka või serva.
GLIGEN, nagu ka teised difusioonimudelid, suudab teostada maandatud kujutise värvimist, mis võib genereerida objekte, mis sobivad täpselt kaasasolevate piirdekastidega.
GLIGEN, nagu ka teised difusioonimudelid, suudab teostada maandatud kujutise värvimist, mis võib genereerida objekte, mis sobivad täpselt kaasasolevate piirdekastidega.
GLIGEN võib tekstist kujutisteks genereerides ka inimeste võtmepunkte maandada.
GLIGEN võib samal ajal maandada ka inimese võtmepunkte tekstist kujutisteks genereerimine.

Loe AI kohta lähemalt:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Hot Stories
Liituge meie uudiskirjaga.
Uudised

Institutsionaalne isu kasvab volatiilsuse tõttu Bitcoini ETF-ide poole

13F-i dokumentide kaudu avaldatud teave paljastab märkimisväärsed institutsionaalsed investorid, kes tegelevad Bitcoini ETF-idega, rõhutades, et ...

Rohkem teada

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
Injective ühendab jõud AltLayeriga, et tuua inEVM-i uuesti turvalisus
Äri Uudiste reportaaž Tehnoloogia
Injective ühendab jõud AltLayeriga, et tuua inEVM-i uuesti turvalisus
Võib 3 2024
Masa teeb koostööd Telleriga, et tutvustada MASA laenufondi, mis võimaldab USDC baasil laenu võtta
turud Uudiste reportaaž Tehnoloogia
Masa teeb koostööd Telleriga, et tutvustada MASA laenufondi, mis võimaldab USDC baasil laenu võtta
Võib 3 2024
Velodrome toob lähinädalatel turule Superchaini beetaversiooni ja laieneb üle OP Stack Layer 2 plokiahelate
turud Uudiste reportaaž Tehnoloogia
Velodrome toob lähinädalatel turule Superchaini beetaversiooni ja laieneb üle OP Stack Layer 2 plokiahelate
Võib 3 2024
CARV teatab koostööst Aethiriga, et detsentraliseerida oma andmekiht ja jaotada auhindu
Äri Uudiste reportaaž Tehnoloogia
CARV teatab koostööst Aethiriga, et detsentraliseerida oma andmekiht ja jaotada auhindu
Võib 3 2024
CRYPTOMERIA LABS PTE. LTD.