Novinová správa
March 20, 2023

Nový model prevodu textu na obrázok GigaGAN dokáže generovať 4K obrázky za 3.66 s

Stručne

Výskumníci vyvinuli nový model prevodu textu na obrázok s názvom GigaGAN, ktorý dokáže generovať 4K obrázky za 3.66 sekundy.

Je založený na rámci GAN (generative adversarial network), čo je typ neurónové sieť ktoré sa môžu naučiť generovať dáta podobné tréningovým dátovým súborom. GigaGAN je schopný generovať 512px obrázky za 0.13 sekundy, čo je 10-krát rýchlejšie ako predchádzajúci moderný model, a má rozmotaný, súvislý a ovládateľný latentný priestor.

Dá sa použiť aj na trénovanie efektívneho a kvalitnejšieho upsamplera.

Výskumníci vyvinuli nový model prevodu textu na obrázok tzv GigaGAN ktoré môžu generovať Obrázky 4K za 3.66 sekundy. Ide o zásadné zlepšenie oproti existujúcim modelom prevodu textu na obrázok, ktorým môže vygenerovanie jedného obrázka trvať minúty alebo dokonca hodiny.

Nový model prevodu textu na obrázok GigaGAN dokáže generovať obrázky v rozlíšení 4K rýchlosťou 3.66 s

GigaGAN je založený na rámci GAN (generative adversarial network), čo je typ neurónovej siete, ktorá sa dokáže naučiť generovať dáta, ktoré sú podobné trénovaciemu súboru údajov. GAN sa používajú na vytváranie realistických obrázkov tvárí, krajiny a dokonca aj obrázkov Street View.

Prečítajte si viac: 5+ najočakávanejších modelov umelej inteligencie s prevodom textu na obrázok v roku 2023

Nový model bol trénovaný na súbore údajov s 1 miliardou obrázkov, ktorý je rádovo väčší ako súbory údajov používané na trénovanie starších modelov text-to-image. Výsledkom je, že GigaGAN dokáže generovať 512px obrázky za 0.13 sekundy, čo je viac ako 10-krát rýchlejšie ako predchádzajúci moderný model prevodu textu na obrázok.

Okrem toho GigaGAN prichádza s oddeleným, súvislým a ovládateľným skrytým priestorom. To znamená, že GigaGAN dokáže generovať obrázky, ktoré majú množstvo rôznych štýlov, a že generované obrázky je možné do určitej miery ovládať. GigaGAN dokáže napríklad generovať obrázky, ktoré zachovávajú rozloženie zadávaného textu, čo je dôležité pre aplikácie, napríklad pri generovaní obrázkov rozloženia produktov z textových popisov.

GigaGAN možno použiť aj na trénovanie efektívneho a kvalitnejšieho upsamplera. To možno použiť na skutočné obrázky alebo na výstupy iných modely text-to-image.

Súčasťou generátora GigaGAN je vetva kódovania textu, sieť mapovania štýlov, sieť na viacúrovňovú syntézu a stabilná pozornosť a adaptívny výber jadra. Vývojári začínajú vetvu kódovania textu extrahovaním vložení textu pomocou vopred trénovaného modelu CLIP a naučených vrstiev pozornosti T. Podobne ako StyleGAN, vloženie sa odovzdá sieti mapovania štýlov M, ktorá vygeneruje vektor štýlu w. Na vytvorenie obrazovej pyramídy teraz sieť syntézy používa kód štýlu ako moduláciu a vloženie textu ako pozornosť. Okrem toho vývojári zavádzajú výber jadra adaptívneho na vzorky na výber konvolučných jadier adaptívne na základe úpravy vstupného textu.

Diskriminátor má rovnako ako generátor dve vetvy na spracovanie obrazu a úpravu textu. Textová vetva, podobne ako generátor, spracováva text. Vetva obrazu má pyramídu obrazu a jej úlohou je robiť nezávislé predpovede pre každú mierku obrazu. Okrem toho sa predpovede robia na všetkých následných škálach prevzorkovania vrstiev. Na podporu efektívnej konvergencie sa využívajú aj dodatočné straty.

Ako je znázornené na interpolačnej mriežke, GigaGAN umožňuje hladkú interpoláciu medzi výzvami. Štyri rohy sú vytvorené pomocou rovnakého latentného z, ale rôznych textových výziev.

Vzhľadom k tomu, že GigaGAN zachováva oddelený latentný priestor, vývojári môžu kombinovať hrubý štýl jednej vzorky s jemným štýlom inej vzorky. GigaGAN môže tiež ovládať štýl priamo pomocou textových pokynov.

Prečítajte si ďalšie súvisiace články:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac

Zakladatelia Peňaženky Samourai boli obvinení z uľahčenia obchodov Darknet v hodnote 2 miliárd USD

Obavy zakladateľov Peňaženky Samourai predstavujú pre odvetvie pozoruhodnú prekážku, ktorá podčiarkuje pretrvávajúcu ...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Pantera Capital investuje do blockchainu TON, vyjadruje dôveru v potenciál Telegramu na rozšírenie dostupnosti kryptomien
firmy Novinová správa Technológia
Pantera Capital investuje do blockchainu TON, vyjadruje dôveru v potenciál Telegramu na rozšírenie dostupnosti kryptomien
Môže 2, 2024
Mitosis získa 7 miliónov dolárov vo financovaní od Amber Group a Foresight Ventures na zlepšenie svojho modulárneho protokolu likvidity
firmy Novinová správa Technológia
Mitosis získa 7 miliónov dolárov vo financovaní od Amber Group a Foresight Ventures na zlepšenie svojho modulárneho protokolu likvidity
Môže 2, 2024
Galxe spolupracuje so spoločnosťou Jambo, aby rozšírila globálnu dostupnosť Web3
firmy Novinová správa Technológia
Galxe spolupracuje so spoločnosťou Jambo, aby rozšírila globálnu dostupnosť Web3
Môže 2, 2024
Člen hongkonskej legislatívnej rady Wu Jiezhuang signalizuje občiansky žalobu proti krypto burze JPEX
firmy Novinová správa Technológia
Člen hongkonskej legislatívnej rady Wu Jiezhuang signalizuje občiansky žalobu proti krypto burze JPEX
Môže 2, 2024
CRYPTOMERIA LABS PTE. LTD.