Inanunsyo ng Nvidia ang eDiff-I: bagong generative AI para sa text at image synthesis na may agarang paglipat ng mga istilo
Sa madaling sabi
Inilunsad ng Nvidia ang eDiff-I upang matulungan ang mga negosyo na lumikha ng mataas na kalidad, nakakaakit na mga larawan
Ang eDiff-I technique ay regular na gumagawa ng mas mataas na kalidad ng synthesis kaysa sa DALL-E2 at Stable diffusion
Ang eDiff-I ay isang bagong tool sa paglikha ng nilalaman ng AI na nagbibigay ng hindi pa nagagawang text-to-image synthesis na mga kakayahan para sa mga marketer at negosyo, tulad ng inihayag kamakailan ng NVIDIA. Sa eDiff-I, mabilis at madaling makakagawa ang mga negosyo ng mataas na kalidad, nakakaengganyong visual nang hindi nangangailangan ng mamahaling kagamitan o propesyonal na tulong. Gumagamit ang eDiff-I ng natural language processing (NLP) upang bigyang-kahulugan ang input ng user at bumuo ng mga kaukulang larawan. Sinusuri ng AI ang mga larawan at pinipili ang pinakaangkop batay sa konteksto. Ang resulta ay isang mataas na kalidad, mukhang propesyonal na imahe na maaaring magamit para sa iba't ibang layunin, tulad ng mga materyales sa marketing, mga post sa social media, mga kampanya sa email, at higit pa.
Ang eDiff-I ay isang susunod na henerasyong AI tool sa paglikha ng nilalaman na nagbibigay ng hindi pa nagagawa text-to-image synthesis, mabilis na paglipat ng istilo, at intuitive na pagpipinta gamit ang mga salita. Bilang isang diffusion model para sa paglikha ng mga visual mula sa text, ang eDiff-I ay nagmumungkahi ng pagsasanay ng isang grupo ng mga dalubhasang denoising network, bawat isa ay nagdadalubhasa para sa isang partikular na agwat ng ingay, bilang tugon sa empirical na paghahanap na ang gawi ng mga modelo ng diffusion ay nag-iiba sa iba't ibang yugto ng sampling.
Ang T5 text embeddings, CLIP image embeddings, at CLIP text embedddings ay nagbibigay ng batayan para sa eDiff-I concept. Ang pamamaraang ito ay maaaring makagawa ng mga photorealistic na graphics bilang tugon sa anumang query sa text.
Nagpapakita ito ng dalawang karagdagang kakayahan bilang karagdagan sa text-to-image synthesis: (1) paglilipat ng istilo, na nagbibigay-daan sa amin na kontrolin ang istilo ng nabuong sample gamit ang isang reference na istilo ng imahe, at (2) "Paint with Words," isang tool na nagpapahintulot sa mga user na lumikha ng mga larawan sa pamamagitan ng pagpipinta ng mga mapa ng segmentation sa canvas.
Ang pipeline ay binubuo ng isang cascade ng tatlong diffusion model: isang base model na maaaring lumikha ng mga sample na may resolution na 64×64 at dalawang super-resolution na stack na maaaring unti-unting mag-upsample ng mga larawan sa mga resolution na 256×256 at 1024×1024, ayon sa pagkakabanggit. Kinakalkula ng mga modelo ang T5 XXL at pag-embed ng text pagkatapos makatanggap ng caption bilang input. Ang mga pag-embed ng larawan na ito ay maaaring gamitin bilang isang vector ng istilo. Pagkatapos, i-feed ang mga embeddings na ito sa aming cascaded mga modelo ng pagsasabog, na unti-unting gumagawa ng mga larawang may resolution na 1024 x 1024.
Ang diskarte sa eDiff-I ay patuloy na nagreresulta sa mas mahusay na kalidad ng synthesis kung ihahambing sa mga open-source na text-to-image na algorithm (Stable diffusion) at (DALL-E2).
Kapag ginamit ang CLIP image embeddings, pinapadali ng diskarteng eDiff-I ang paglipat ng istilo. eDiff-I-extract muna ang CLIP mga pag-embed ng larawan mula sa isang imahe ng istilo ng sanggunian, na maaaring magamit bilang isang vector ng sangguniang istilo. Makikita ang isang sanggunian sa istilo sa figure sa ibaba sa kaliwang panel. Ang mga resulta kapag naka-on ang style conditioning ay ipinapakita sa center panel. Ang mga resulta kapag naka-off ang style conditioning ay ipinapakita sa panel sa kanan. Kapag inilapat ang style conditioning, ang modelo ng eDiff-I ay gumagawa ng mga output na totoo rin sa istilo ng caption ng input. Kapag naka-off ang style conditioning, nagagawa ang mga larawang mukhang natural.
Sa pamamagitan ng pagpili ng mga parirala at pagsulat sa mga ito sa larawan, maaaring baguhin ng mga user ng eDiff-I na paraan ang paglalagay ng mga bagay na nakalista sa text prompt. Pagkatapos nito, ginagamit ng modelo ang prompt at ang mga mapa upang lumikha ng mga larawan na tugma sa parehong caption at input na mapa.
Basahin ang mga kaugnay na artikulo:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikuloSi Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.