Novice
Marec 20, 2023

Nov model besedila v sliko GigaGAN lahko ustvari slike 4K v 3.66 s

Na kratko

Raziskovalci so razvili nov model besedila v sliko, imenovan GigaGAN, ki lahko ustvari slike 4K v 3.66 sekunde.

Temelji na ogrodju GAN (generative adversarial network), ki je vrsta nevronska mreža ki se lahko nauči ustvarjati podatke, podobne naboru podatkov za usposabljanje. GigaGAN lahko ustvari slike ločljivosti 512 slikovnih pik v 0.13 sekunde, kar je 10-krat hitreje od prejšnjega najsodobnejšega modela, in ima nezapleten, neprekinjen in nadzorovan latentni prostor.

Uporablja se lahko tudi za usposabljanje učinkovitega, kakovostnejšega upsamplerja.

Raziskovalci so razvili nov model besedila v sliko, imenovan GigaGAN ki lahko ustvari Slike 4K v 3.66 sekunde. To je velika izboljšava v primerjavi z obstoječimi modeli besedila v sliko, pri katerih lahko generiranje ene same slike traja nekaj minut ali celo ur.

Novi model besedila v sliko GigaGAN lahko ustvari slike 4K pri 3.66 s

GigaGAN temelji na ogrodju GAN (generative adversarial network), ki je vrsta nevronske mreže, ki se lahko nauči ustvarjati podatke, ki so podobni naboru podatkov za usposabljanje. GAN so bili uporabljeni za ustvarjanje realističnih slik obrazov, pokrajin in celo slik Street View.

Preberite več: 5+ najbolj pričakovanih modelov umetne inteligence s pretvorbo besedila v sliko leta 2023

Novi model je bil učen na naboru podatkov z 1 milijardo slik, kar je za velikostne rede večje od naborov podatkov, uporabljenih za usposabljanje prejšnjih modelov besedila v sliko. Posledično lahko GigaGAN ustvari slike 512 slikovnih pik v 0.13 sekunde, kar je več kot 10-krat hitreje od prejšnjega najsodobnejšega modela besedila v sliko.

Poleg tega je GigaGAN opremljen z ločenim, neprekinjenim in nadzorovanim latentnim prostorom. To pomeni, da lahko GigaGAN ustvari slike z različnimi slogi in da je mogoče ustvarjene slike do neke mere nadzorovati. GigaGAN lahko na primer ustvari slike, ki ohranijo postavitev vnosa besedila, kar je pomembno za aplikacije, na primer pri ustvarjanju slik postavitev izdelkov iz besedilnih opisov.

GigaGAN se lahko uporablja tudi za usposabljanje učinkovitega, kakovostnejšega upsemplerja. To je mogoče uporabiti za resnične slike ali za rezultate drugih modeli besedila v sliko.

Veja za kodiranje besedila, omrežje za preslikavo slogov, omrežje za sintezo v več merilih ter stabilna pozornost in prilagodljiva izbira jedra so del generatorja GigaGAN. Razvijalci začnejo vejo kodiranja besedila tako, da ekstrahirajo vdelave besedila z vnaprej usposobljenim modelom CLIP in naučenimi plastmi pozornosti T. Podobno kot StyleGAN, se vdelava posreduje omrežju za preslikavo sloga M, ki generira vektor sloga w. Za ustvarjanje slikovne piramide omrežje za sintezo zdaj uporablja slogovno kodo kot modulacijo in vdelano besedilo kot pozornost. Poleg tega razvijalci uvajajo vzorčno prilagodljivo izbiro jedra za izbiro konvolucijskih jeder prilagodljivo na podlagi pogojevanja vhodnega besedila.

Diskriminator ima tako kot generator dve veji za obdelavo slike in pogojevanje besedila. Besedilna veja, tako kot generator, obdeluje besedilo. Veji za slike je dana slikovna piramida in zadolžena za izdelavo neodvisnih napovedi za vsako slikovno lestvico. Poleg tega se napovedi izvedejo na vseh nadaljnjih lestvicah plasti zmanjševanja vzorčenja. Dodatne izgube se uporabljajo tudi za spodbujanje učinkovite konvergence.

Kot je prikazano v interpolacijski mreži, GigaGAN omogoča gladko interpolacijo med pozivi. Štirje vogali so ustvarjeni z uporabo istega latentnega z, vendar različnih besedilnih pozivov.

Ker GigaGAN ohranja razvezan latentni prostor, lahko razvijalci združijo grob slog enega vzorca s finim slogom drugega. GigaGAN lahko upravlja tudi slog neposredno z besedilnimi pozivi.

Preberite več sorodnih člankov:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem

Ustanovitelji denarnice Samourai Wallet obtoženi omogočanja 2 milijard dolarjev pri poslih Darknet

Zaskrbljenost ustanoviteljev denarnice Samourai Wallet predstavlja opazno nazadovanje za industrijo, ki poudarja vztrajno ...

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
AltLayer vstopa v drugo fazo svoje pobude za vlaganje, predstavlja žeton reALT
Prisotnost Novice Tehnologija
AltLayer vstopa v drugo fazo svoje pobude za vlaganje, predstavlja žeton reALT
Maj 2, 2024
BNB Chain objavlja poročilo za prvo četrtletje 1, v katerem poudarja 2024-odstotno zmanjšanje svoje izgube vrednosti, medtem ko BSC TVL naraste za 55.8 %
Prisotnost Novice Tehnologija
BNB Chain objavlja poročilo za prvo četrtletje 1, v katerem poudarja 2024-odstotno zmanjšanje svoje izgube vrednosti, medtem ko BSC TVL naraste za 55.8 %
Maj 2, 2024
Aave Labs razkriva predlog 'Aave 2030', vključno z lansiranjem protokola Aave V4
ŽELITE POSTATI PARTNER Novice Tehnologija
Aave Labs razkriva predlog 'Aave 2030', vključno z lansiranjem protokola Aave V4
Maj 2, 2024
Ankr sodeluje s platformo AI Blockchain Talus Network za odklepanje likvidnosti bitcoinov za AI
ŽELITE POSTATI PARTNER Novice Tehnologija
Ankr sodeluje s platformo AI Blockchain Talus Network za odklepanje likvidnosti bitcoinov za AI
Maj 1, 2024
CRYPTOMERIA LABS PTE. LTD.