Ulat sa Balita Teknolohiya
Nobyembre 17, 2022

Inanunsyo ng Nvidia ang eDiff-I: bagong generative AI para sa text at image synthesis na may agarang paglipat ng mga istilo

Sa madaling sabi

Inilunsad ng Nvidia ang eDiff-I upang matulungan ang mga negosyo na lumikha ng mataas na kalidad, nakakaakit na mga larawan

Ang eDiff-I technique ay regular na gumagawa ng mas mataas na kalidad ng synthesis kaysa sa DALL-E2 at Stable diffusion

Ang eDiff-I ay isang bagong tool sa paglikha ng nilalaman ng AI na nagbibigay ng hindi pa nagagawang text-to-image synthesis na mga kakayahan para sa mga marketer at negosyo, tulad ng inihayag kamakailan ng NVIDIA. Sa eDiff-I, mabilis at madaling makakagawa ang mga negosyo ng mataas na kalidad, nakakaengganyong visual nang hindi nangangailangan ng mamahaling kagamitan o propesyonal na tulong. Gumagamit ang eDiff-I ng natural language processing (NLP) upang bigyang-kahulugan ang input ng user at bumuo ng mga kaukulang larawan. Sinusuri ng AI ang mga larawan at pinipili ang pinakaangkop batay sa konteksto. Ang resulta ay isang mataas na kalidad, mukhang propesyonal na imahe na maaaring magamit para sa iba't ibang layunin, tulad ng mga materyales sa marketing, mga post sa social media, mga kampanya sa email, at higit pa.

Ang eDiff-I ay isang susunod na henerasyong AI tool sa paglikha ng nilalaman na nagbibigay ng hindi pa nagagawa text-to-image synthesis, mabilis na paglipat ng istilo, at intuitive na pagpipinta gamit ang mga salita. Bilang isang diffusion model para sa paglikha ng mga visual mula sa text, ang eDiff-I ay nagmumungkahi ng pagsasanay ng isang grupo ng mga dalubhasang denoising network, bawat isa ay nagdadalubhasa para sa isang partikular na agwat ng ingay, bilang tugon sa empirical na paghahanap na ang gawi ng mga modelo ng diffusion ay nag-iiba sa iba't ibang yugto ng sampling.

Inanunsyo ng Nvidia ang eDiff-I: bagong generative AI para sa text at image synthesis na may agarang paglipat ng mga istilo

Ang T5 text embeddings, CLIP image embeddings, at CLIP text embedddings ay nagbibigay ng batayan para sa eDiff-I concept. Ang pamamaraang ito ay maaaring makagawa ng mga photorealistic na graphics bilang tugon sa anumang query sa text.

Nagpapakita ito ng dalawang karagdagang kakayahan bilang karagdagan sa text-to-image synthesis: (1) paglilipat ng istilo, na nagbibigay-daan sa amin na kontrolin ang istilo ng nabuong sample gamit ang isang reference na istilo ng imahe, at (2) "Paint with Words," isang tool na nagpapahintulot sa mga user na lumikha ng mga larawan sa pamamagitan ng pagpipinta ng mga mapa ng segmentation sa canvas.

Padaanin sa tubo
Padaanin sa tubo

Ang pipeline ay binubuo ng isang cascade ng tatlong diffusion model: isang base model na maaaring lumikha ng mga sample na may resolution na 64×64 at dalawang super-resolution na stack na maaaring unti-unting mag-upsample ng mga larawan sa mga resolution na 256×256 at 1024×1024, ayon sa pagkakabanggit. Kinakalkula ng mga modelo ang T5 XXL at pag-embed ng text pagkatapos makatanggap ng caption bilang input. Ang mga pag-embed ng larawan na ito ay maaaring gamitin bilang isang vector ng istilo. Pagkatapos, i-feed ang mga embeddings na ito sa aming cascaded mga modelo ng pagsasabog, na unti-unting gumagawa ng mga larawang may resolution na 1024 x 1024.

Ang diskarte sa eDiff-I ay patuloy na nagreresulta sa mas mahusay na kalidad ng synthesis kung ihahambing sa mga open-source na text-to-image na algorithm (Stable diffusion) at (DALL-E2).

resulta
resulta

Kapag ginamit ang CLIP image embeddings, pinapadali ng diskarteng eDiff-I ang paglipat ng istilo. eDiff-I-extract muna ang CLIP mga pag-embed ng larawan mula sa isang imahe ng istilo ng sanggunian, na maaaring magamit bilang isang vector ng sangguniang istilo. Makikita ang isang sanggunian sa istilo sa figure sa ibaba sa kaliwang panel. Ang mga resulta kapag naka-on ang style conditioning ay ipinapakita sa center panel. Ang mga resulta kapag naka-off ang style conditioning ay ipinapakita sa panel sa kanan. Kapag inilapat ang style conditioning, ang modelo ng eDiff-I ay gumagawa ng mga output na totoo rin sa istilo ng caption ng input. Kapag naka-off ang style conditioning, nagagawa ang mga larawang mukhang natural.

Paglipat ng istilo
Paglipat ng istilo

Sa pamamagitan ng pagpili ng mga parirala at pagsulat sa mga ito sa larawan, maaaring baguhin ng mga user ng eDiff-I na paraan ang paglalagay ng mga bagay na nakalista sa text prompt. Pagkatapos nito, ginagamit ng modelo ang prompt at ang mga mapa upang lumikha ng mga larawan na tugma sa parehong caption at input na mapa.

Basahin ang mga kaugnay na artikulo:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa

Ang Mga Tagapagtatag ng Samourai Wallet ay Inakusahan na Nagpapadali ng $2B sa Darknet Deals

Ang pangamba ng mga tagapagtatag ng Samourai Wallet ay kumakatawan sa isang kapansin-pansing pag-urong para sa industriya, na binibigyang-diin ang patuloy na ...

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Pantera Capital ay Namumuhunan Sa TON Blockchain, Nagpahayag ng Kumpiyansa Sa Potensyal ng Telegram na Palawakin ang Accessibility ng Crypto
Negosyo Ulat sa Balita Teknolohiya
Ang Pantera Capital ay Namumuhunan Sa TON Blockchain, Nagpahayag ng Kumpiyansa Sa Potensyal ng Telegram na Palawakin ang Accessibility ng Crypto
Mayo 2, 2024
Ang Mitosis ay Nagtaas ng $7M Sa Pagpopondo Mula sa Amber Group At Foresight Ventures Upang Isulong ang Modular Liquidity Protocol Nito
Negosyo Ulat sa Balita Teknolohiya
Ang Mitosis ay Nagtaas ng $7M Sa Pagpopondo Mula sa Amber Group At Foresight Ventures Upang Isulong ang Modular Liquidity Protocol Nito
Mayo 2, 2024
Nakipagtulungan ang Galxe Sa Jambo Para Palawakin ang Global Accessibility To Web3
Negosyo Ulat sa Balita Teknolohiya
Nakipagtulungan ang Galxe Sa Jambo Para Palawakin ang Global Accessibility To Web3
Mayo 2, 2024
Nakahanda ang Med-Gemini ng Google na Magsimula sa GPT-4 Sa Superior na Pagganap nito sa Pangangalagang Pangkalusugan
AI Wiki Balita software Teknolohiya
Nakahanda ang Med-Gemini ng Google na Magsimula sa GPT-4 Sa Superior na Pagganap nito sa Pangangalagang Pangkalusugan
Mayo 2, 2024
CRYPTOMERIA LABS PTE. LTD.