Novinky
20. března 2023

Nový model převodu textu na obrázek GigaGAN dokáže generovat 4K obrázky za 3.66 s

Stručně

Výzkumníci vyvinuli nový model převodu textu na obrázek nazvaný GigaGAN, který dokáže generovat 4K obrázky za 3.66 sekundy.

Je založen na rámci GAN (generative adversarial network), což je typ nervová síť které se mohou naučit generovat data podobná trénovací datové sadě. GigaGAN je schopen generovat 512px obrázky za 0.13 sekundy, 10krát rychleji než předchozí nejmodernější model, a má rozmotaný, souvislý a ovladatelný latentní prostor.

Lze jej také použít k výcviku výkonného a kvalitnějšího upsamplera.

Výzkumníci vyvinuli nový model převodu textu na obrázek s názvem GigaGAN které mohou generovat Obrázky 4K za 3.66 sekundy. Jde o zásadní vylepšení oproti stávajícím modelům převodu textu na obrázek, kterým může vygenerování jednoho obrázku trvat minuty nebo dokonce hodiny.

Nový model převodu textu na obrázek GigaGAN dokáže generovat 4K obrázky za 3.66 s

GigaGAN je založen na frameworku GAN (generative adversarial network), což je typ neuronové sítě, která se dokáže naučit generovat data podobná trénovací datové sadě. GAN se používají k vytváření realistických snímků tváří, krajiny a dokonce i snímků Street View.

Čtěte více: 5+ nejočekávanějších modelů umělé inteligence typu text-to-Image z roku 2023

Nový model byl trénován na datové sadě 1 miliardy obrázků, která je řádově větší než datové sady používané k trénování dřívějších modelů převodu textu na obrázek. Výsledkem je, že GigaGAN je schopen generovat 512px obrázky za 0.13 sekundy, což je více než 10krát rychleji než předchozí nejmodernější model převodu textu na obrázek.

Kromě toho GigaGAN přichází s odděleným, souvislým a ovladatelným latentním prostorem. To znamená, že GigaGAN dokáže generovat obrázky, které mají řadu různých stylů, a že generované obrázky lze do určité míry ovládat. GigaGAN může například generovat obrázky, které zachovávají rozložení textového vstupu, což je důležité pro aplikace, například při generování obrázků rozložení produktů z textových popisů.

GigaGAN lze také použít k výcviku výkonného a kvalitnějšího upsampleru. To lze aplikovat na skutečné obrázky nebo na výstupy jiných modely text-to-image.

Větev kódování textu, síť mapování stylů, síť pro vícestupňovou syntézu a stabilní pozornost a adaptivní výběr jádra jsou součástí generátoru GigaGAN. Vývojáři začínají větev kódování textu extrahováním vložení textu pomocí předem trénovaného modelu CLIP a naučených vrstev pozornosti T. Podobně jako StylGAN, vložení je předáno síti mapování stylů M, která generuje vektor stylu w. Pro generování obrazové pyramidy nyní síť pro syntézu používá kód stylu jako modulaci a vložení textu jako pozornost. Kromě toho vývojáři zavádějí výběr jádra adaptivního na vzorky, aby mohli konvoluční jádra vybrat adaptivně na základě úpravy vstupního textu.

Diskriminátor má stejně jako generátor dvě větve pro zpracování obrazu a úpravu textu. Textová větev stejně jako generátor zpracovává text. Větev obrazu dostane pyramidu obrazu a má za úkol vytvářet nezávislé předpovědi pro každé měřítko obrazu. Kromě toho jsou předpovědi prováděny ve všech následných měřítcích vrstvy sestupného vzorkování. Další ztráty se také používají k podpoře efektivní konvergence.

Jak je znázorněno na interpolační mřížce, GigaGAN umožňuje hladkou interpolaci mezi výzvami. Čtyři rohy jsou vytvořeny pomocí stejného latentního z, ale různých textových výzev.

Vzhledem k tomu, že GigaGAN zachovává neuspořádaný latentní prostor, mohou vývojáři kombinovat hrubý styl jednoho vzorku s jemným stylem jiného. GigaGAN může také ovládat styl přímo pomocí textových výzev.

Přečtěte si další související články:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více

Zakladatelé peněženky Samourai byli obviněni z usnadňování 2 miliard dolarů v obchodech Darknet

Obavy zakladatelů Peněženky Samourai představují pro průmysl významnou překážku, která podtrhuje přetrvávající ...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
AltLayer vstupuje do druhé fáze své vytyčovací iniciativy a představuje token realALT
Trhy Novinky Technika
AltLayer vstupuje do druhé fáze své vytyčovací iniciativy a představuje token realALT
2
Řetězec BNB zveřejnil zprávu za 1. čtvrtletí 2024, zdůrazňuje 55.8% snížení ztráty hodnoty, zatímco BSC TVL stoupá o 70.8 %
Trhy Novinky Technika
Řetězec BNB zveřejnil zprávu za 1. čtvrtletí 2024, zdůrazňuje 55.8% snížení ztráty hodnoty, zatímco BSC TVL stoupá o 70.8 %
2
Aave Labs představuje návrh „Aave 2030“ včetně spuštění protokolu Aave V4
Business Novinky Technika
Aave Labs představuje návrh „Aave 2030“ včetně spuštění protokolu Aave V4
2
Ankr spolupracuje s platformou AI Blockchain Talus Network na odblokování bitcoinové likvidity pro AI
Business Novinky Technika
Ankr spolupracuje s platformou AI Blockchain Talus Network na odblokování bitcoinové likvidity pro AI
1
CRYPTOMERIA LABS PTE. LTD.