Marso 20, 2023

Ang Bagong Text-to-Image na Modelong GigaGAN ay Maaaring Bumuo ng 4K na Mga Larawan sa loob ng 3.66s

Na-publish: Marso 20, 2023 nang 4:10 am Na-update: Marso 20, 2023 nang 4:11 am

Sa madaling sabi

Nakabuo ang mga mananaliksik ng bagong text-to-image na modelo na tinatawag na GigaGAN na maaaring makabuo ng 4K na larawan sa 3.66 segundo.

Ito ay batay sa GAN (generative adversarial network) na balangkas, na isang uri ng neural network na maaaring matutong bumuo ng data na katulad ng isang dataset ng pagsasanay. Nagagawa ng GigaGAN na makabuo ng 512px na mga larawan sa 0.13 segundo, 10 beses na mas mabilis kaysa sa nakaraang makabagong modelo, at may hiwalay, tuloy-tuloy, at nakokontrol na latent space.

Maaari rin itong magamit upang sanayin ang isang mahusay, mas mataas na kalidad na upsampler.

Ang mga mananaliksik ay nakabuo ng bagong text-to-image na modelo na tinatawag na GigaGAN na maaaring makabuo 4K mga larawan sa 3.66 segundo. Ito ay isang malaking pagpapabuti sa mga kasalukuyang modelo ng text-to-image, na maaaring tumagal ng ilang minuto o kahit na oras upang makabuo ng isang larawan.

Ang bagong text-to-image na modelo na GigaGAN ay maaaring makabuo ng 4K na larawan sa 3.66s

Nakabatay ang GigaGAN sa framework ng GAN (generative adversarial network), na isang uri ng neural network na maaaring matutong bumuo ng data na katulad ng isang dataset ng pagsasanay. Ginamit ang mga GAN upang makabuo ng mga makatotohanang larawan ng mga mukha, landscape, at maging mga larawan ng Street View.

Magbasa nang higit pa: 5+ Pinaka Inaasahang Text-to-Image AI na mga modelo ng 2023

Ang bagong modelo ay sinanay sa isang dataset ng 1 bilyong larawan, na mga order ng magnitude na mas malaki kaysa sa mga dataset na ginamit upang sanayin ang mga naunang modelo ng text-to-image. Bilang resulta, ang GigaGAN ay nakakagawa ng 512px na mga imahe sa 0.13 segundo, na higit sa 10 beses na mas mabilis kaysa sa dating makabagong text-to-image na modelo.

Bilang karagdagan, ang GigaGAN ay may kasamang nakahiwalay, tuloy-tuloy, at nakokontrol na latent space. Nangangahulugan ito na ang GigaGAN ay maaaring makabuo ng mga imahe na may iba't ibang iba't ibang mga estilo, at ang mga nabuong larawan ay maaaring kontrolin sa ilang mga lawak. Halimbawa, ang GigaGAN ay maaaring makabuo ng mga larawan na nagpapanatili ng layout ng text input, na mahalaga para sa mga application, halimbawa, kapag bumubuo ng mga larawan ng mga layout ng produkto mula sa mga paglalarawan ng teksto.

Magagamit din ang GigaGAN para sanayin ang isang mahusay, mas mataas na kalidad na upsampler. Maaari itong ilapat sa mga totoong larawan o sa mga output ng iba mga modelo ng text-to-image.

Ang isang sangay ng pag-encode ng teksto, network ng pagmamapa ng istilo, multi-scale na synthesis network, at stable na atensyon at adaptive kernel selection ay lahat bahagi ng GigaGAN generator. Sinisimulan ng mga developer ang sangay ng pag-encode ng teksto sa pamamagitan ng pagkuha ng mga pag-embed ng teksto gamit ang isang pre-trained na modelo ng CLIP at mga natutunang layer ng pansin T. Katulad ng StyleGAN, ang pag-embed ay ipinapasa sa network ng pagmamapa ng istilo M, na bumubuo ng style vector w. Upang makabuo ng pyramid ng imahe, ginagamit na ngayon ng synthesis network ang style code bilang modulasyon at ang mga text embedding bilang atensyon. Higit pa rito, ipinakilala ng mga developer ang sample-adaptive na seleksyon ng kernel upang pumili ng convolution kernels nang adaptive batay sa input text conditioning.

Ang discriminator, tulad ng generator, ay may dalawang sangay para sa pagproseso ng image at text conditioning. Ang sangay ng teksto, tulad ng generator, ay nagpoproseso ng teksto. Ang sangay ng imahe ay binibigyan ng pyramid ng imahe at naatasang gumawa ng mga independiyenteng hula para sa bawat sukat ng imahe. Higit pa rito, ang mga hula ay ginawa sa lahat ng kasunod na downsampling layer scale. Ginagamit din ang mga karagdagang pagkalugi upang hikayatin ang epektibong pagsasama-sama.

Gaya ng ipinapakita sa interpolation grid, pinapayagan ng GigaGAN ang maayos na interpolation sa pagitan ng mga prompt. Ang apat na sulok ay ginawa gamit ang parehong latent z ngunit magkaibang text prompt.

Dahil pinapanatili ng GigaGAN ang isang nakahiwalay na latent space, maaaring pagsamahin ng mga developer ang magaspang na istilo ng isang sample sa magandang istilo ng isa pa. Maaari ding direktang kontrolin ng GigaGAN ang istilo gamit ang mga text prompt.

Magbasa nang higit pa mga nauugnay na artikulo:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Hot Stories

Ang Pantera Capital ay Namumuhunan Sa TON Blockchain, Nagpahayag ng Kumpiyansa Sa Potensyal ng Telegram na Palawakin ang Accessibility ng Crypto

by Alisa Davidson

Mayo 02, 2024

Ang Mitosis ay Nagtaas ng $7M Sa Pagpopondo Mula sa Amber Group At Foresight Ventures Upang Isulong ang Modular Liquidity Protocol Nito

by Alisa Davidson

Mayo 02, 2024

Nakipagtulungan ang Galxe Sa Jambo Para Palawakin ang Global Accessibility To Web3

by Alisa Davidson

Mayo 02, 2024

Ang Miyembro ng Legislative Council ng Hong Kong na si Wu Jiezhuang ay Nag-signal ng Civil Suit Laban sa JPEX Crypto Exchange

by Alisa Davidson

Mayo 02, 2024

Pinakabagong Balita

Ang Pantera Capital ay Namumuhunan Sa TON Blockchain, Nagpahayag ng Kumpiyansa Sa Potensyal ng Telegram na Palawakin ang Accessibility ng Crypto

by Alisa Davidson

Mayo 02, 2024

Ang Mitosis ay Nagtaas ng $7M Sa Pagpopondo Mula sa Amber Group At Foresight Ventures Upang Isulong ang Modular Liquidity Protocol Nito

by Alisa Davidson

Mayo 02, 2024

Nakipagtulungan ang Galxe Sa Jambo Para Palawakin ang Global Accessibility To Web3

by Alisa Davidson

Mayo 02, 2024

Ang Miyembro ng Legislative Council ng Hong Kong na si Wu Jiezhuang ay Nag-signal ng Civil Suit Laban sa JPEX Crypto Exchange

by Alisa Davidson

Mayo 02, 2024

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa

Ang Mga Tagapagtatag ng Samourai Wallet ay Inakusahan na Nagpapadali ng $2B sa Darknet Deals

Ang pangamba ng mga tagapagtatag ng Samourai Wallet ay kumakatawan sa isang kapansin-pansing pag-urong para sa industriya, na binibigyang-diin ang patuloy na ...

Malaman Higit Pa

Sumali sa Aming Innovative Tech Community