StyleGAN-T: najhitrejše ustvarjanje besedila v sliko, ki daje rezultate v manj kot 0.1 sekunde
Na kratko
StyleGAN-T je nov GAN za generacijo tex2image.
Ta GAN daje dobre rezultate in je celo precej hiter (0.1 sekunde za sliko 512×512).
Nova arhitektura temelji na StyleGAN-XL, vendar na novo ocenjuje zasnove generatorja in diskriminatorja.
Zagotovo ste opazili, da se o GAN-ih ne razpravlja več, ko se pojavi tema ustvarjanja slik. Po difuzijskih modelih, kot je Stable Diffusion pojavili, so se GAN nekako umaknili v ozadje. To je zato, ker jih je težko trenirati in se pogosto spotikajo. Edina prednost GAN-jev je bila, da za razliko od difuzijskih modelov ustvarijo sliko v enem samem zagonu (»prehod naprej«) namesto več zagonov.
Zdaj pa je na igrišče vstopil nov igralec iz GAN-ov: StilGAN-T. Ta GAN za generiranje besedila v sliko daje dobre rezultate hitro, saj traja le 0.1 sekunde za sliko 512×512. Nova arhitektura temelji na StyleGAN-XL, vendar ponovno ovrednoti zasnove generatorja in diskriminatorja ter uporablja CLIP za besedilno hitro poravnavo in generirano grafiko.
Povezani članek: VToonify: model AI v realnem času za ustvarjanje umetniških portretnih videoposnetkov |
Na splošno StyleGAN-T zdaj ustvarja besedilo v sliko hitreje in natančneje kot drugi GAN-ji. Vendar je GAN še vedno grozen in kakovost modela SD v polni velikosti očitno ne pride v poštev. Vse pa bo odvisno od zmožnosti izdelave izjemno kakovostnih slik iz besedila v manj kot sekundi v enem letu. Poleg tega bo padel nekje med GAN in difuzijski model.
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.