Vijesti
Ožujak 20, 2023

Novi model teksta u sliku GigaGAN može generirati 4K slike za 3.66 s

Ukratko

Istraživači su razvili novi model teksta u sliku nazvan GigaGAN koji može generirati 4K slike za 3.66 sekundi.

Temelji se na okviru GAN (generative adversarial network), koji je vrsta neuronska mreža koji može naučiti generirati podatke slične skupu podataka za obuku. GigaGAN može generirati slike od 512 piksela za 0.13 sekundi, 10 puta brže od prethodnog vrhunskog modela, i ima rastavljen, kontinuiran i kontroliran latentni prostor.

Također se može koristiti za treniranje učinkovitog, kvalitetnijeg upsemplera.

Istraživači su razvili novi model teksta u sliku tzv GigaGAN koji može generirati 4K slike za 3.66 sekundi. Ovo je veliko poboljšanje u odnosu na postojeće modele pretvaranja teksta u sliku, kojima može trebati nekoliko minuta ili čak sati za generiranje jedne slike.

Novi model teksta u sliku GigaGAN može generirati 4K slike u 3.66 s

GigaGAN se temelji na okviru GAN (generative adversarial network), koji je vrsta neuronske mreže koja može naučiti generirati podatke koji su slični skupu podataka za obuku. GAN-ovi su korišteni za generiranje realističnih slika lica, krajolika, pa čak i slika Street Viewa.

Pročitajte više: 5+ najočekivanijih AI modela teksta u sliku 2023

Novi model obučen je na skupu podataka od 1 milijarde slika, što je za redove veličine veće od skupova podataka korištenih za obuku ranijih modela teksta u sliku. Kao rezultat toga, GigaGAN može generirati slike od 512 piksela za 0.13 sekundi, što je više od 10 puta brže od prethodnog najsuvremenijeg modela teksta u sliku.

Uz to, GigaGAN dolazi s rastavljenim, kontinuiranim i kontroliranim latentnim prostorom. To znači da GigaGAN može generirati slike koje imaju niz različitih stilova i da se generiranim slikama može upravljati u određenoj mjeri. Na primjer, GigaGAN može generirati slike koje čuvaju izgled unosa teksta, što je važno za aplikacije, na primjer, kada se generiraju slike izgleda proizvoda iz tekstualnih opisa.

GigaGAN se također može koristiti za treniranje učinkovitog, kvalitetnijeg upsemplera. Ovo se može primijeniti na stvarne slike ili na izlaze drugih modeli teksta u sliku.

Grana za kodiranje teksta, mreža za mapiranje stilova, mreža za sintezu u više razmjera, te stabilna pažnja i prilagodljiv odabir kernela dio su GigaGAN generatora. Razvojni programeri započinju granu kodiranja teksta izdvajanjem umetanja teksta s unaprijed obučenim CLIP modelom i naučenim slojevima pažnje T. Slično StyleGAN, ugradnja se prosljeđuje mreži za preslikavanje stila M, koja generira vektor stila w. Za generiranje slikovne piramide, mreža sinteze sada koristi kod stila kao modulaciju i umetanje teksta kao pozornost. Nadalje, razvojni programeri uvode odabir jezgre prilagođen uzorku kako bi odabrali jezgre konvolucije prilagodljivo na temelju uvjetovanja ulaznog teksta.

Diskriminator, kao i generator, ima dvije grane za obradu slike i kondicioniranje teksta. Grana teksta, kao i generator, obrađuje tekst. Grana slike dobiva piramidu slike i ima zadatak izraditi neovisna predviđanja za svaku skalu slike. Nadalje, predviđanja se rade na svim sljedećim razinama slojeva za smanjivanje uzorkovanja. Dodatni gubici također se koriste za poticanje učinkovite konvergencije.

Kao što je prikazano na mreži interpolacije, GigaGAN omogućuje glatku interpolaciju između upita. Četiri kuta stvorena su pomoću istog latentnog z, ali različitih tekstualnih upita.

Budući da GigaGAN čuva rastavljeni latentni prostor, programeri mogu kombinirati grubi stil jednog uzorka s finim stilom drugog. GigaGAN također može kontrolirati stil izravno s tekstualnim uputama.

Pročitajte više povezanih članaka:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više

Osnivači novčanika Samourai optuženi za omogućavanje 2 milijarde dolara u poslovima Darkneta

Uhićenje osnivača Samourai Walleta predstavlja značajno nazadovanje u industriji, naglašavajući upornu ...

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Pantera Capital ulaže u TON Blockchain, izražava povjerenje u potencijal Telegrama da proširi kripto pristupačnost
posao Vijesti Tehnologija
Pantera Capital ulaže u TON Blockchain, izražava povjerenje u potencijal Telegrama da proširi kripto pristupačnost
Neka 2, 2024
Mitosis prikuplja 7 milijuna dolara financiranja od Amber Group i Foresight Ventures kako bi unaprijedio svoj modularni protokol likvidnosti
posao Vijesti Tehnologija
Mitosis prikuplja 7 milijuna dolara financiranja od Amber Group i Foresight Ventures kako bi unaprijedio svoj modularni protokol likvidnosti
Neka 2, 2024
Galxe surađuje s Jambom kako bi proširio globalnu dostupnost na Web3
posao Vijesti Tehnologija
Galxe surađuje s Jambom kako bi proširio globalnu dostupnost na Web3
Neka 2, 2024
Član zakonodavnog vijeća Hong Konga Wu Jiezhuang najavljuje građansku tužbu protiv JPEX Crypto Exchange
posao Vijesti Tehnologija
Član zakonodavnog vijeća Hong Konga Wu Jiezhuang najavljuje građansku tužbu protiv JPEX Crypto Exchange
Neka 2, 2024
CRYPTOMERIA LABS PTE. LTD.