Marts 20, 2023

Jauns teksta pārveides modelis GigaGAN var ģenerēt 4K attēlus 3.66 s

Publicēts: 20. gada 2023. martā plkst. 4:10 Atjaunināts: 20. gada 2023. martā plkst. 4:11

Īsumā

Pētnieki ir izstrādājuši jaunu teksta pārveides modeli ar nosaukumu GigaGAN, kas var ģenerēt 4K attēlus 3.66 sekundēs.

Tas ir balstīts uz GAN (ģeneratīvā pretrunīgā tīkla) ietvaru, kas ir sava veida neironu tīklu kas var iemācīties ģenerēt datus, kas līdzīgi apmācības datu kopai. GigaGAN spēj ģenerēt 512 pikseļu attēlus 0.13 sekundēs, kas ir 10 reizes ātrāk nekā iepriekšējais modernais modelis, un tam ir atdalīta, nepārtraukta un kontrolējama latentā telpa.

To var arī izmantot, lai apmācītu efektīvu, augstākas kvalitātes augšējo paraugu ņemtāju.

Pētnieki ir izstrādājuši jaunu teksta-attēla modeli, ko sauc GigaGAN kas var radīt 4K attēli 3.66 sekundēs. Tas ir būtisks uzlabojums salīdzinājumā ar esošajiem teksta pārveides modeļiem, kas var aizņemt minūtes vai pat stundas, lai ģenerētu vienu attēlu.

Jaunais teksta pārveides modelis GigaGAN var ģenerēt 4K attēlus ar ātrumu 3.66 s

GigaGAN pamatā ir GAN (ģeneratīvs pretrunīgs tīkls) ietvars, kas ir neironu tīkla veids, kas var iemācīties ģenerēt datus, kas ir līdzīgi apmācības datu kopai. GAN ir izmantoti, lai ģenerētu reālistiskus seju, ainavu attēlus un pat Ielas attēla attēlus.

Lasīt vairāk: 5+ 2023. gada gaidītākie AI modeļi teksta pārveidošanai attēlā

Jaunais modelis ir apmācīts, izmantojot datu kopu, kurā ir 1 miljards attēlu, kas ir par vairākām kārtām lielāks nekā datu kopas, kas tika izmantotas, lai apmācītu iepriekšējos teksta pārveides modeļus. Rezultātā GigaGAN spēj ģenerēt 512 pikseļu attēlus 0.13 sekundēs, kas ir vairāk nekā 10 reizes ātrāk nekā iepriekšējais modernais teksta pārveidošanas modelis.

Turklāt GigaGAN ir aprīkots ar atdalītu, nepārtrauktu un kontrolējamu latento telpu. Tas nozīmē, ka GigaGAN var ģenerēt dažādu stilu attēlus un ģenerētos attēlus zināmā mērā var kontrolēt. Piemēram, GigaGAN var ģenerēt attēlus, kas saglabā teksta ievades izkārtojumu, kas ir svarīgi lietojumprogrammām, piemēram, ģenerējot produktu izkārtojumu attēlus no teksta aprakstiem.

GigaGAN var izmantot arī, lai apmācītu efektīvu, augstākas kvalitātes augšējo paraugu ņemtāju. To var attiecināt uz reāliem attēliem vai citu attēlu izvadiem teksta-attēlu modeļi.

Teksta kodēšanas atzars, stila kartēšanas tīkls, vairāku mērogu sintēzes tīkls, kā arī stabila uzmanība un adaptīvā kodola atlase ir daļa no GigaGAN ģeneratora. Izstrādātāji sāk teksta kodēšanas atzaru, izvelkot teksta iegulšanu ar iepriekš apmācītu CLIP modeli un apgūtajiem uzmanības slāņiem T. Līdzīgi kā StilsGAN, iegulšana tiek nodota stila kartēšanas tīklam M, kas ģenerē stila vektoru w. Lai ģenerētu attēla piramīdu, sintēzes tīkls tagad izmanto stila kodu kā modulāciju un teksta iegulšanu kā uzmanību. Turklāt izstrādātāji ievieš parauga adaptīvu kodola atlasi, lai adaptīvi atlasītu konvolūcijas kodolus, pamatojoties uz ievades teksta kondicionēšanu.

Diskriminatoram, tāpat kā ģeneratoram, ir divi atzari attēla apstrādei un teksta kondicionēšanai. Teksta filiāle, tāpat kā ģenerators, apstrādā tekstu. Attēlu atzaram tiek piešķirta attēla piramīda, un tam ir uzdots veikt neatkarīgas prognozes katrai attēla skalai. Turklāt prognozes tiek veiktas visos turpmākajos paraugu samazināšanas slāņu mērogos. Papildu zaudējumi tiek izmantoti arī efektīvas konverģences veicināšanai.

Kā parādīts interpolācijas režģī, GigaGAN nodrošina vienmērīgu interpolāciju starp uzvednēm. Četri stūri tiek izveidoti, izmantojot to pašu latento z, bet dažādas teksta uzvednes.

Tā kā GigaGAN saglabā atdalītu latento telpu, izstrādātāji var apvienot viena parauga rupjo stilu ar cita parauga smalko stilu. GigaGAN var arī kontrolēt stilu tieši ar teksta uzvednēm.

Lasiet vairāk saistītos rakstus:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs