Uudiste reportaaž
Märtsil 20, 2023

Uus tekstist pildiks muutmise mudel GigaGAN suudab luua 4K-pilte 3.66 sekundiga

Põgusalt

Teadlased on välja töötanud uue tekstist pildiks mudeli nimega GigaGAN, mis suudab genereerida 4K-pilte 3.66 sekundiga.

See põhineb GAN (generative adversarial network) raamistikul, mis on teatud tüüpi Närvivõrgus mis võivad õppida genereerima koolitusandmestikuga sarnaseid andmeid. GigaGAN suudab genereerida 512 piksliga pilte 0.13 sekundiga, mis on 10 korda kiirem kui eelmine tipptasemel mudel, ning sellel on lahutatud, pidev ja kontrollitav varjatud ruum.

Seda saab kasutada ka tõhusa ja kvaliteetsema upsampleri koolitamiseks.

Teadlased on välja töötanud uue teksti-pildiks mudeli nimega GigaGAN mis võib tekitada 4K pilti 3.66 sekundiga. See on suur edasiminek võrreldes olemasolevate tekstist pildiks muutmise mudelitega, mille ühe pildi loomiseks võib kuluda minuteid või isegi tunde.

Uus tekstist pildiks muutev mudel GigaGAN suudab genereerida 4K-pilte kiirusega 3.66 sekundit

GigaGAN põhineb GAN-i (generative adversaria network) raamistikul, mis on teatud tüüpi närvivõrk, mis suudab õppida genereerima andmeid, mis on sarnased koolitusandmete kogumile. GAN-e on kasutatud nägude, maastike ja isegi tänavavaate piltide realistlike kujutiste loomiseks.

Loe rohkem: 5+ 2023. aasta oodatuimat tekstist pildiks AI mudelit

Uut mudelit on koolitatud 1 miljardist pildist koosneva andmekogumiga, mis on suurusjärku suurem kui varasemate tekstist pildiks mudelite koolitamiseks kasutatud andmekogumid. Selle tulemusena suudab GigaGAN genereerida 512 piksliga pilte 0.13 sekundiga, mis on enam kui 10 korda kiirem kui eelmine tipptasemel tekst-pildiks mudel.

Lisaks on GigaGANil lahutatud, pidev ja kontrollitav latentne ruum. See tähendab, et GigaGAN saab luua erineva stiiliga pilte ja genereeritud pilte saab teatud määral juhtida. Näiteks saab GigaGAN genereerida pilte, mis säilitavad tekstisisestuse paigutuse, mis on rakenduste jaoks oluline, näiteks tekstikirjeldustest tootepaigutuste kujutiste genereerimisel.

GigaGANi saab kasutada ka tõhusa ja kvaliteetsema upsampleri koolitamiseks. Seda saab rakendada reaalsete piltide või muude piltide jaoks tekst-pildiks mudelid.

Tekstikodeeringu haru, stiilide vastendamise võrk, mitmeskaalas sünteesivõrk ning stabiilne tähelepanu ja adaptiivne kerneli valik on kõik GigaGAN-i generaatori osad. Arendajad alustavad teksti kodeerimise haru, eraldades teksti manustused eelnevalt koolitatud CLIP-mudeli ja õpitud tähelepanukihtidega T. Sarnaselt StyleGAN, edastatakse manustamine stiilide vastendamise võrku M, mis genereerib stiilivektori w. Pildipüramiidi genereerimiseks kasutab sünteesivõrk nüüd modulatsioonina stiilikoodi ja tähelepanuna teksti manustamist. Lisaks tutvustavad arendajad näidis-adaptiivset tuumavalikut, et valida konvolutsioonituumad adaptiivselt sisendteksti tingimuste alusel.

Diskriminaatoril, nagu ka generaatoril, on kaks haru pildi töötlemiseks ja teksti konditsioneerimiseks. Tekstiharu, nagu generaator, töötleb teksti. Pildiharule antakse kujutise püramiid ja tema ülesandeks on teha sõltumatuid ennustusi iga pildi skaala kohta. Lisaks tehakse prognoose kõigil järgnevatel alladiskreetimiskihi skaaladel. Täiendavaid kahjusid kasutatakse ka tõhusa lähenemise soodustamiseks.

Nagu interpolatsiooniruudustikus näidatud, võimaldab GigaGAN sujuvat interpoleerimist viipade vahel. Neli nurka luuakse sama varjatud z, kuid erinevate tekstiviipade abil.

Kuna GigaGAN säilitab eraldatud varjatud ruumi, saavad arendajad kombineerida ühe proovi jämedat stiili teise peene stiiliga. GigaGAN saab stiili juhtida ka otse tekstiviipade abil.

Loe rohkem seotud artikleid:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Veel artikleid
Damir Jalalov
Damir Jalalov

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks. 

Hot Stories
Liituge meie uudiskirjaga.
Uudised

Karistuspäev saabub: CZ saatus on tasakaalus, kuna USA kohus võtab DOJ palvet arvesse

Changpeng Zhao ootab täna ees kohtuotsus USA Seattle'i kohtus.

Rohkem teada

Samourai rahakoti asutajaid süüdistatakse Darkneti tehingute 2 miljardi dollari suuruse hõlbustamises

Samourai Walleti asutajate kartus on tööstuse jaoks märkimisväärne tagasilöök, mis rõhutab püsivat ...

Rohkem teada
Liituge meie uuendusliku tehnikakogukonnaga
Loe rohkem
Loe edasi
AltLayer siseneb panustamisalgatuse teise faasi, tutvustab reALT-märki
turud Uudiste reportaaž Tehnoloogia
AltLayer siseneb panustamisalgatuse teise faasi, tutvustab reALT-märki
Võib 2 2024
BNB keti 1. aasta I kvartali aruanne tõstab esile 2024% väärtuse vähenemise, samas kui BSC TVL tõuseb 55.8%
turud Uudiste reportaaž Tehnoloogia
BNB keti 1. aasta I kvartali aruanne tõstab esile 2024% väärtuse vähenemise, samas kui BSC TVL tõuseb 55.8%
Võib 2 2024
Aave Labs avalikustab 'Aave 2030' ettepaneku, mis sisaldab Aave V4 protokolli käivitamist
Äri Uudiste reportaaž Tehnoloogia
Aave Labs avalikustab 'Aave 2030' ettepaneku, mis sisaldab Aave V4 protokolli käivitamist
Võib 2 2024
Ankr teeb koostööd AI plokiahela platvormi Talus võrguga, et avada AI jaoks Bitcoini likviidsus
Äri Uudiste reportaaž Tehnoloogia
Ankr teeb koostööd AI plokiahela platvormi Talus võrguga, et avada AI jaoks Bitcoini likviidsus
Võib 1 2024
CRYPTOMERIA LABS PTE. LTD.