Ulat sa Balita Teknolohiya
Septiyembre 19, 2023

Panalo ang Modelong Würstchen V2 Stable Diffusion XL na may Kahanga-hangang Bilis para sa Pagbuo ng High-Resolution na Mga Larawan

Isang kamakailang tweet ng may-akda ng isang artikulo na pinamagatang "Würstchen" (German para sa "Sausage") ay nakakuha ng atensyon ng mga mahilig at mga eksperto. Ibinahagi ng tweet ang nakakaintriga na mga resulta ng pagbuo ng mga larawan gamit ang bagong modelo ng Würstchen V2.

Panalo ang Modelong Würstchen V2 Stable Diffusion XL na may Kahanga-hangang Bilis para sa Pagbuo ng High-Resolution na Mga Larawan
kaugnay: Midjourney 5.2 at Stable Diffusion SDXL 0.9 Update para sa Creative Text-to-Image Generation

Ang Würstchen ay mabilis at mahusay, nakakabuo ng mga larawan nang mas mabilis kaysa sa mga modelo Stable Diffusion XL habang gumagamit ng mas kaunting memorya. Nagbawas din ito ng mga gastos sa pagsasanay, kung saan ang Würstchen v1 ay nangangailangan lamang ng 9,000 GPU na oras ng pagsasanay sa 512×512 na mga resolusyon, kumpara sa 150,000 GPU na mga oras na ginugol sa Stable Diffusion 1.4. Ang 16x na pagbawas sa gastos ay hindi lamang nakikinabang sa mga mananaliksik na nagsasagawa ng mga bagong eksperimento ngunit nagbubukas din ng pinto para sa higit pang mga organisasyon upang sanayin ang mga naturang modelo. Gumamit ang Würstchen v2 ng 24,602 GPU na oras, na ginagawa itong 6x na mas mura kaysa sa SD1.4, na sinanay lang sa 512×512.

Ang isang natatanging tampok na agad na nakakuha ng mata ng komunidad ng AI ay ang kahanga-hangang bilis ng Würstchen V2. Ayon sa may-akda, ang pagbuo ng apat na 1024×2048 na imahe gamit ang modelong ito ay tumatagal lamang ng 7 segundo. Upang ilagay ito sa pananaw, ang modelo ng SDXL ay mangangailangan ng medyo matamlay na 40 segundo upang makamit ang parehong gawain.

Ang Würstchen V1, na ipinakilala dati, ay nagbabahagi ng pundasyon nito sa SDXL bilang isang Latent Modelo ng pagsasabog ngunit isinasama ang isang mas mabilis na arkitektura ng Unet. Habang sabik na inaasahan ng komunidad ang mga karagdagang detalye sa arkitektura ng Würstchen V2, ang pinahusay na bilis lamang ay nagmamarka nito bilang isang kapansin-pansing pag-unlad.

Ang Würstchen V2 ay isang modelo ng pagsasabog na gumagana sa isang napaka-compress na nakatago na espasyo ng mga imahe, na binabawasan ang mga gastos sa computational para sa pagsasanay at hinuha ayon sa mga order ng magnitude. Gumagamit ito ng nobelang disenyo na nakakamit ng 42x na spatial compression, isang gawang hindi pa nakikita. Gumagamit ang Würstchen ng dalawang yugto ng compression, Stage A at Stage B, na nagde-decode ng mga naka-compress na larawan pabalik sa espasyo ng pixel. Ang pangatlong modelo, ang Stage C, ay natutunan sa mataas na naka-compress na latent space, na nangangailangan ng mga fraction ng compute na ginagamit para sa kasalukuyang mga modelong may pinakamataas na performance habang nagbibigay-daan sa mas mura at mas mabilis na inference.

Ang Würstchen V2 ay binubuo ng dalawang yugto ng pagsasabog:

  • Stage A: Ang yugtong ito ay kinabibilangan ng text-conditioned diffusion at ipinagmamalaki ang nakakagulat na 1 bilyong parameter. Ang acceleration dito ay nakakamit sa pamamagitan ng ultra-high compression techniques. Kapansin-pansin, sa halip na ang laki ng nakatagong code na 128x128x4, tulad ng nakikita sa SDXL, ang Würstchen V2 ay unang gumagana sa isang resolution na 24x24x16. Nangangahulugan ito na mas kaunting mga pixel ngunit mas maraming channel, na nagreresulta sa isang makabuluhang pagtaas ng bilis.
  • Stage B: Ito ay isang modelo ng pagsasabog na nilagyan ng 600 milyong mga parameter, na responsable para sa pag-decompress ng imahe mula 24 × 24 hanggang sa isang resolusyon na 128 × 128.

Ang pagkumpleto sa proseso ay isang decoder na may 20 milyong mga parameter na nagbabago sa nakatagong code sa isang nai-render na imahe.

Ang praktikal na benepisyo na agad na namumukod-tangi ay ang kahanga-hangang bilis ng Würstchen V2. Gumagana ito sa bilis na 2-2.5 beses na mas mabilis kaysa sa SDXL, isang kapansin-pansing pagsulong sa larangan ng Pagbuo ng imahe ng AI.

Tulad ng anumang makabagong teknolohiya, maaaring may mga trade-off. Sa mga tuntunin ng kalidad ng imahe, ang ilang mga eksperto ay nagmumungkahi ng isang bahagyang pagkawala, bagaman ang isang komprehensibo at tapat na paghahambing ay hinihintay pa rin upang magbigay ng konkretong ebidensya.

Ang nabuong mga halimbawa ng text-to-image ay nasa ibaba:

Magbasa ng higit pang mga kaugnay na paksa:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
markets Ulat sa Balita Teknolohiya
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
Mayo 10, 2024
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
markets Katiwasayan Wiki software Mga Kuwento at Pagsusuri Teknolohiya
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
Mayo 10, 2024
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Ulat sa Balita Teknolohiya
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Mayo 10, 2024
Mga Nangungunang Deal ngayong Linggo, Mga Pangunahing Pamumuhunan sa AI, IT, Web3, at Crypto (06-10.04)
Digest Negosyo markets software Teknolohiya
Mga Nangungunang Deal ngayong Linggo, Mga Pangunahing Pamumuhunan sa AI, IT, Web3, at Crypto (06-10.04)
Mayo 10, 2024
CRYPTOMERIA LABS PTE. LTD.