Novi model teksta u sliku GigaGAN može generirati 4K slike za 3.66 s
Ukratko
Istraživači su razvili novi model teksta u sliku nazvan GigaGAN koji može generirati 4K slike za 3.66 sekundi.
Temelji se na okviru GAN (generative adversarial network), koji je vrsta neuronska mreža koji može naučiti generirati podatke slične skupu podataka za obuku. GigaGAN može generirati slike od 512 piksela za 0.13 sekundi, 10 puta brže od prethodnog vrhunskog modela, i ima rastavljen, kontinuiran i kontroliran latentni prostor.
Također se može koristiti za treniranje učinkovitog, kvalitetnijeg upsemplera.
Istraživači su razvili novi model teksta u sliku tzv GigaGAN koji može generirati 4K slike za 3.66 sekundi. Ovo je veliko poboljšanje u odnosu na postojeće modele pretvaranja teksta u sliku, kojima može trebati nekoliko minuta ili čak sati za generiranje jedne slike.
GigaGAN se temelji na okviru GAN (generative adversarial network), koji je vrsta neuronske mreže koja može naučiti generirati podatke koji su slični skupu podataka za obuku. GAN-ovi su korišteni za generiranje realističnih slika lica, krajolika, pa čak i slika Street Viewa.
Pročitajte više: 5+ najočekivanijih AI modela teksta u sliku 2023 |
Novi model obučen je na skupu podataka od 1 milijarde slika, što je za redove veličine veće od skupova podataka korištenih za obuku ranijih modela teksta u sliku. Kao rezultat toga, GigaGAN može generirati slike od 512 piksela za 0.13 sekundi, što je više od 10 puta brže od prethodnog najsuvremenijeg modela teksta u sliku.
Uz to, GigaGAN dolazi s rastavljenim, kontinuiranim i kontroliranim latentnim prostorom. To znači da GigaGAN može generirati slike koje imaju niz različitih stilova i da se generiranim slikama može upravljati u određenoj mjeri. Na primjer, GigaGAN može generirati slike koje čuvaju izgled unosa teksta, što je važno za aplikacije, na primjer, kada se generiraju slike izgleda proizvoda iz tekstualnih opisa.
GigaGAN se također može koristiti za treniranje učinkovitog, kvalitetnijeg upsemplera. Ovo se može primijeniti na stvarne slike ili na izlaze drugih modeli teksta u sliku.
Grana za kodiranje teksta, mreža za mapiranje stilova, mreža za sintezu u više razmjera, te stabilna pažnja i prilagodljiv odabir kernela dio su GigaGAN generatora. Razvojni programeri započinju granu kodiranja teksta izdvajanjem umetanja teksta s unaprijed obučenim CLIP modelom i naučenim slojevima pažnje T. Slično StyleGAN, ugradnja se prosljeđuje mreži za preslikavanje stila M, koja generira vektor stila w. Za generiranje slikovne piramide, mreža sinteze sada koristi kod stila kao modulaciju i umetanje teksta kao pozornost. Nadalje, razvojni programeri uvode odabir jezgre prilagođen uzorku kako bi odabrali jezgre konvolucije prilagodljivo na temelju uvjetovanja ulaznog teksta.
Diskriminator, kao i generator, ima dvije grane za obradu slike i kondicioniranje teksta. Grana teksta, kao i generator, obrađuje tekst. Grana slike dobiva piramidu slike i ima zadatak izraditi neovisna predviđanja za svaku skalu slike. Nadalje, predviđanja se rade na svim sljedećim razinama slojeva za smanjivanje uzorkovanja. Dodatni gubici također se koriste za poticanje učinkovite konvergencije.
Kao što je prikazano na mreži interpolacije, GigaGAN omogućuje glatku interpolaciju između upita. Četiri kuta stvorena su pomoću istog latentnog z, ali različitih tekstualnih upita.
Budući da GigaGAN čuva rastavljeni latentni prostor, programeri mogu kombinirati grubi stil jednog uzorka s finim stilom drugog. GigaGAN također može kontrolirati stil izravno s tekstualnim uputama.
Pročitajte više povezanih članaka:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.