Model Würstchen V2 Menang Stable Diffusion XL dengan Kecepatan Mengesankan untuk Menghasilkan Gambar Resolusi Tinggi
Tweet baru-baru ini oleh penulis artikel berjudul “Würstchen” (bahasa Jerman untuk “Sosis”) telah menarik perhatian para penggemar dan pakar. Tweet tersebut membagikan hasil menarik dari pembuatan gambar menggunakan model Würstchen V2 yang baru.
terkait: Midjourney 5.2 dan Stable Diffusion Pembaruan SDXL 0.9 untuk Pembuatan Teks-ke-Gambar Kreatif |
Würstchen cepat dan efisien, menghasilkan gambar lebih cepat dibandingkan model sejenisnya Stable Diffusion XL sambil menggunakan lebih sedikit memori. Hal ini juga mengurangi biaya pelatihan, dengan Würstchen v1 hanya memerlukan 9,000 jam GPU untuk pelatihan pada resolusi 512×512, dibandingkan dengan 150,000 jam GPU yang dihabiskan untuk Stable Diffusion 1.4. Pengurangan biaya sebesar 16x ini tidak hanya menguntungkan para peneliti yang melakukan eksperimen baru tetapi juga membuka pintu bagi lebih banyak organisasi untuk melatih model semacam itu. Würstchen v2 menggunakan 24,602 jam GPU, menjadikannya 6x lebih murah dibandingkan SD1.4, yang hanya dilatih pada 512×512.
Würstchen V2 adalah a model difusi yang bekerja dalam ruang gambar laten yang sangat terkompresi, sehingga mengurangi biaya komputasi untuk pelatihan dan inferensi hingga beberapa kali lipat. Ini menggunakan desain baru yang mencapai kompresi spasial 42x, suatu prestasi yang belum pernah terlihat sebelumnya. Würstchen menggunakan kompresi dua tahap, Tahap A dan Tahap B, yang mendekode gambar terkompresi kembali ke ruang piksel. Model ketiga, Tahap C, dipelajari dalam ruang laten yang sangat terkompresi, yang memerlukan sebagian kecil dari komputasi yang digunakan untuk model berperforma terbaik saat ini sekaligus memungkinkan inferensi yang lebih murah dan lebih cepat.
Würstchen V2 terdiri dari dua tahap difusi:
- Tahap A: Tahap ini melibatkan difusi yang dikondisikan teks dan menawarkan 1 miliar parameter yang mengejutkan. Akselerasi di sini dicapai melalui teknik kompresi ultra-tinggi. Khususnya, alih-alih ukuran kode tersembunyi 128x128x4, seperti yang terlihat di SDXL, Würstchen V2 awalnya beroperasi pada resolusi 24x24x16. Ini berarti lebih sedikit piksel tetapi lebih banyak saluran, sehingga menghasilkan peningkatan kecepatan yang signifikan.
- Tahap B: Ini adalah model difusi yang dilengkapi dengan 600 juta parameter, yang bertanggung jawab untuk mendekompresi gambar dari 24×24 ke resolusi 128×128.
Menyelesaikan proses ini adalah decoder dengan 20 juta parameter yang mengubah kode tersembunyi menjadi gambar yang dirender.
Manfaat praktis yang langsung menonjol adalah kecepatan luar biasa dari Würstchen V2. Ini beroperasi pada kecepatan yang 2-2.5 kali lebih cepat dari SDXL, sebuah kemajuan penting di bidangnya Pembuatan gambar AI.
Seperti halnya inovasi teknologi lainnya, mungkin ada trade-off. Dari segi kualitas gambar, beberapa ahli berpendapat ada sedikit kerugian, meski perbandingan yang komprehensif dan jujur masih ditunggu untuk memberikan bukti nyata.
Contoh teks-ke-gambar yang dihasilkan ada di bawah:
Baca topik terkait lainnya:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.