Nový model prevodu textu na obrázok GigaGAN dokáže generovať 4K obrázky za 3.66 s
Stručne
Výskumníci vyvinuli nový model prevodu textu na obrázok s názvom GigaGAN, ktorý dokáže generovať 4K obrázky za 3.66 sekundy.
Je založený na rámci GAN (generative adversarial network), čo je typ neurónové sieť ktoré sa môžu naučiť generovať dáta podobné tréningovým dátovým súborom. GigaGAN je schopný generovať 512px obrázky za 0.13 sekundy, čo je 10-krát rýchlejšie ako predchádzajúci moderný model, a má rozmotaný, súvislý a ovládateľný latentný priestor.
Dá sa použiť aj na trénovanie efektívneho a kvalitnejšieho upsamplera.
Výskumníci vyvinuli nový model prevodu textu na obrázok tzv GigaGAN ktoré môžu generovať Obrázky 4K za 3.66 sekundy. Ide o zásadné zlepšenie oproti existujúcim modelom prevodu textu na obrázok, ktorým môže vygenerovanie jedného obrázka trvať minúty alebo dokonca hodiny.
GigaGAN je založený na rámci GAN (generative adversarial network), čo je typ neurónovej siete, ktorá sa dokáže naučiť generovať dáta, ktoré sú podobné trénovaciemu súboru údajov. GAN sa používajú na vytváranie realistických obrázkov tvárí, krajiny a dokonca aj obrázkov Street View.
Prečítajte si viac: 5+ najočakávanejších modelov umelej inteligencie s prevodom textu na obrázok v roku 2023 |
Nový model bol trénovaný na súbore údajov s 1 miliardou obrázkov, ktorý je rádovo väčší ako súbory údajov používané na trénovanie starších modelov text-to-image. Výsledkom je, že GigaGAN dokáže generovať 512px obrázky za 0.13 sekundy, čo je viac ako 10-krát rýchlejšie ako predchádzajúci moderný model prevodu textu na obrázok.
Okrem toho GigaGAN prichádza s oddeleným, súvislým a ovládateľným skrytým priestorom. To znamená, že GigaGAN dokáže generovať obrázky, ktoré majú množstvo rôznych štýlov, a že generované obrázky je možné do určitej miery ovládať. GigaGAN dokáže napríklad generovať obrázky, ktoré zachovávajú rozloženie zadávaného textu, čo je dôležité pre aplikácie, napríklad pri generovaní obrázkov rozloženia produktov z textových popisov.
GigaGAN možno použiť aj na trénovanie efektívneho a kvalitnejšieho upsamplera. To možno použiť na skutočné obrázky alebo na výstupy iných modely text-to-image.
Súčasťou generátora GigaGAN je vetva kódovania textu, sieť mapovania štýlov, sieť na viacúrovňovú syntézu a stabilná pozornosť a adaptívny výber jadra. Vývojári začínajú vetvu kódovania textu extrahovaním vložení textu pomocou vopred trénovaného modelu CLIP a naučených vrstiev pozornosti T. Podobne ako StyleGAN, vloženie sa odovzdá sieti mapovania štýlov M, ktorá vygeneruje vektor štýlu w. Na vytvorenie obrazovej pyramídy teraz sieť syntézy používa kód štýlu ako moduláciu a vloženie textu ako pozornosť. Okrem toho vývojári zavádzajú výber jadra adaptívneho na vzorky na výber konvolučných jadier adaptívne na základe úpravy vstupného textu.
Diskriminátor má rovnako ako generátor dve vetvy na spracovanie obrazu a úpravu textu. Textová vetva, podobne ako generátor, spracováva text. Vetva obrazu má pyramídu obrazu a jej úlohou je robiť nezávislé predpovede pre každú mierku obrazu. Okrem toho sa predpovede robia na všetkých následných škálach prevzorkovania vrstiev. Na podporu efektívnej konvergencie sa využívajú aj dodatočné straty.
Ako je znázornené na interpolačnej mriežke, GigaGAN umožňuje hladkú interpoláciu medzi výzvami. Štyri rohy sú vytvorené pomocou rovnakého latentného z, ale rôznych textových výziev.
Vzhľadom k tomu, že GigaGAN zachováva oddelený latentný priestor, vývojári môžu kombinovať hrubý štýl jednej vzorky s jemným štýlom inej vzorky. GigaGAN môže tiež ovládať štýl priamo pomocou textových pokynov.
Prečítajte si ďalšie súvisiace články:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.