Panalo ang Modelong Würstchen V2 Stable Diffusion XL na may Kahanga-hangang Bilis para sa Pagbuo ng High-Resolution na Mga Larawan
Isang kamakailang tweet ng may-akda ng isang artikulo na pinamagatang "Würstchen" (German para sa "Sausage") ay nakakuha ng atensyon ng mga mahilig at mga eksperto. Ibinahagi ng tweet ang nakakaintriga na mga resulta ng pagbuo ng mga larawan gamit ang bagong modelo ng Würstchen V2.
kaugnay: Midjourney 5.2 at Stable Diffusion SDXL 0.9 Update para sa Creative Text-to-Image Generation |
Ang Würstchen ay mabilis at mahusay, nakakabuo ng mga larawan nang mas mabilis kaysa sa mga modelo Stable Diffusion XL habang gumagamit ng mas kaunting memorya. Nagbawas din ito ng mga gastos sa pagsasanay, kung saan ang Würstchen v1 ay nangangailangan lamang ng 9,000 GPU na oras ng pagsasanay sa 512×512 na mga resolusyon, kumpara sa 150,000 GPU na mga oras na ginugol sa Stable Diffusion 1.4. Ang 16x na pagbawas sa gastos ay hindi lamang nakikinabang sa mga mananaliksik na nagsasagawa ng mga bagong eksperimento ngunit nagbubukas din ng pinto para sa higit pang mga organisasyon upang sanayin ang mga naturang modelo. Gumamit ang Würstchen v2 ng 24,602 GPU na oras, na ginagawa itong 6x na mas mura kaysa sa SD1.4, na sinanay lang sa 512×512.
Ang Würstchen V2 ay isang modelo ng pagsasabog na gumagana sa isang napaka-compress na nakatago na espasyo ng mga imahe, na binabawasan ang mga gastos sa computational para sa pagsasanay at hinuha ayon sa mga order ng magnitude. Gumagamit ito ng nobelang disenyo na nakakamit ng 42x na spatial compression, isang gawang hindi pa nakikita. Gumagamit ang Würstchen ng dalawang yugto ng compression, Stage A at Stage B, na nagde-decode ng mga naka-compress na larawan pabalik sa espasyo ng pixel. Ang pangatlong modelo, ang Stage C, ay natutunan sa mataas na naka-compress na latent space, na nangangailangan ng mga fraction ng compute na ginagamit para sa kasalukuyang mga modelong may pinakamataas na performance habang nagbibigay-daan sa mas mura at mas mabilis na inference.
Ang Würstchen V2 ay binubuo ng dalawang yugto ng pagsasabog:
- Stage A: Ang yugtong ito ay kinabibilangan ng text-conditioned diffusion at ipinagmamalaki ang nakakagulat na 1 bilyong parameter. Ang acceleration dito ay nakakamit sa pamamagitan ng ultra-high compression techniques. Kapansin-pansin, sa halip na ang laki ng nakatagong code na 128x128x4, tulad ng nakikita sa SDXL, ang Würstchen V2 ay unang gumagana sa isang resolution na 24x24x16. Nangangahulugan ito na mas kaunting mga pixel ngunit mas maraming channel, na nagreresulta sa isang makabuluhang pagtaas ng bilis.
- Stage B: Ito ay isang modelo ng pagsasabog na nilagyan ng 600 milyong mga parameter, na responsable para sa pag-decompress ng imahe mula 24 × 24 hanggang sa isang resolusyon na 128 × 128.
Ang pagkumpleto sa proseso ay isang decoder na may 20 milyong mga parameter na nagbabago sa nakatagong code sa isang nai-render na imahe.
Ang praktikal na benepisyo na agad na namumukod-tangi ay ang kahanga-hangang bilis ng Würstchen V2. Gumagana ito sa bilis na 2-2.5 beses na mas mabilis kaysa sa SDXL, isang kapansin-pansing pagsulong sa larangan ng Pagbuo ng imahe ng AI.
Tulad ng anumang makabagong teknolohiya, maaaring may mga trade-off. Sa mga tuntunin ng kalidad ng imahe, ang ilang mga eksperto ay nagmumungkahi ng isang bahagyang pagkawala, bagaman ang isang komprehensibo at tapat na paghahambing ay hinihintay pa rin upang magbigay ng konkretong ebidensya.
Ang nabuong mga halimbawa ng text-to-image ay nasa ibaba:
Magbasa ng higit pang mga kaugnay na paksa:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikuloSi Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.