Laporan berita Teknologi
September 19, 2023

Model Würstchen V2 Menang Stable Diffusion XL dengan Kecepatan Mengesankan untuk Menghasilkan Gambar Resolusi Tinggi

Tweet baru-baru ini oleh penulis artikel berjudul “Würstchen” (bahasa Jerman untuk “Sosis”) telah menarik perhatian para penggemar dan pakar. Tweet tersebut membagikan hasil menarik dari pembuatan gambar menggunakan model Würstchen V2 yang baru.

Model Würstchen V2 Menang Stable Diffusion XL dengan Kecepatan Mengesankan untuk Menghasilkan Gambar Resolusi Tinggi
terkait: Midjourney 5.2 dan Stable Diffusion Pembaruan SDXL 0.9 untuk Pembuatan Teks-ke-Gambar Kreatif

Würstchen cepat dan efisien, menghasilkan gambar lebih cepat dibandingkan model sejenisnya Stable Diffusion XL sambil menggunakan lebih sedikit memori. Hal ini juga mengurangi biaya pelatihan, dengan Würstchen v1 hanya memerlukan 9,000 jam GPU untuk pelatihan pada resolusi 512×512, dibandingkan dengan 150,000 jam GPU yang dihabiskan untuk Stable Diffusion 1.4. Pengurangan biaya sebesar 16x ini tidak hanya menguntungkan para peneliti yang melakukan eksperimen baru tetapi juga membuka pintu bagi lebih banyak organisasi untuk melatih model semacam itu. Würstchen v2 menggunakan 24,602 jam GPU, menjadikannya 6x lebih murah dibandingkan SD1.4, yang hanya dilatih pada 512×512.

Salah satu fitur menonjol yang langsung menarik perhatian komunitas AI adalah kecepatan mengesankan dari Würstchen V2. Menurut penulis, menghasilkan empat gambar 1024×2048 menggunakan model ini hanya membutuhkan waktu 7 detik. Sebagai gambaran, model SDXL memerlukan waktu 40 detik yang relatif lambat untuk menyelesaikan tugas yang sama.

Würstchen V1, yang diperkenalkan sebelumnya, berbagi fondasinya dengan SDXL sebagai Laten Model difusi tetapi menggunakan arsitektur Unet yang lebih cepat. Ketika komunitas sangat menantikan rincian lebih lanjut tentang arsitektur Würstchen V2, peningkatan kecepatan saja sudah menandainya sebagai perkembangan yang patut dicatat.

Würstchen V2 adalah a model difusi yang bekerja dalam ruang gambar laten yang sangat terkompresi, sehingga mengurangi biaya komputasi untuk pelatihan dan inferensi hingga beberapa kali lipat. Ini menggunakan desain baru yang mencapai kompresi spasial 42x, suatu prestasi yang belum pernah terlihat sebelumnya. Würstchen menggunakan kompresi dua tahap, Tahap A dan Tahap B, yang mendekode gambar terkompresi kembali ke ruang piksel. Model ketiga, Tahap C, dipelajari dalam ruang laten yang sangat terkompresi, yang memerlukan sebagian kecil dari komputasi yang digunakan untuk model berperforma terbaik saat ini sekaligus memungkinkan inferensi yang lebih murah dan lebih cepat.

Würstchen V2 terdiri dari dua tahap difusi:

  • Tahap A: Tahap ini melibatkan difusi yang dikondisikan teks dan menawarkan 1 miliar parameter yang mengejutkan. Akselerasi di sini dicapai melalui teknik kompresi ultra-tinggi. Khususnya, alih-alih ukuran kode tersembunyi 128x128x4, seperti yang terlihat di SDXL, Würstchen V2 awalnya beroperasi pada resolusi 24x24x16. Ini berarti lebih sedikit piksel tetapi lebih banyak saluran, sehingga menghasilkan peningkatan kecepatan yang signifikan.
  • Tahap B: Ini adalah model difusi yang dilengkapi dengan 600 juta parameter, yang bertanggung jawab untuk mendekompresi gambar dari 24×24 ke resolusi 128×128.

Menyelesaikan proses ini adalah decoder dengan 20 juta parameter yang mengubah kode tersembunyi menjadi gambar yang dirender.

Manfaat praktis yang langsung menonjol adalah kecepatan luar biasa dari Würstchen V2. Ini beroperasi pada kecepatan yang 2-2.5 kali lebih cepat dari SDXL, sebuah kemajuan penting di bidangnya Pembuatan gambar AI.

Seperti halnya inovasi teknologi lainnya, mungkin ada trade-off. Dari segi kualitas gambar, beberapa ahli berpendapat ada sedikit kerugian, meski perbandingan yang komprehensif dan jujur ​​​​masih ditunggu untuk memberikan bukti nyata.

Contoh teks-ke-gambar yang dihasilkan ada di bawah:

Baca topik terkait lainnya:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Peralihan Donald Trump ke Kripto: Dari Penentang Menjadi Advokat, dan Apa Artinya bagi Pasar Mata Uang Kripto AS
Bisnis pasar Cerita dan Ulasan Teknologi
Peralihan Donald Trump ke Kripto: Dari Penentang Menjadi Advokat, dan Apa Artinya bagi Pasar Mata Uang Kripto AS
10 Mei 2024
Layer3 Akan Meluncurkan Token L3 Musim Panas Ini, Mengalokasikan 51% Dari Total Pasokan Ke Komunitas
pasar Laporan berita Teknologi
Layer3 Akan Meluncurkan Token L3 Musim Panas Ini, Mengalokasikan 51% Dari Total Pasokan Ke Komunitas
10 Mei 2024
Peringatan Terakhir Edward Snowden kepada Pengembang Bitcoin: “Jadikan Privasi sebagai Prioritas Tingkat Protokol atau Berisiko Kehilangannya
pasar Security Wiki Perangkat lunak Cerita dan Ulasan Teknologi
Peringatan Terakhir Edward Snowden kepada Pengembang Bitcoin: “Jadikan Privasi sebagai Prioritas Tingkat Protokol atau Berisiko Kehilangannya
10 Mei 2024
Ethereum Layer 2 Network Mint yang Didukung Optimisme Akan Meluncurkan Mainnetnya Pada 15 Mei
Laporan berita Teknologi
Ethereum Layer 2 Network Mint yang Didukung Optimisme Akan Meluncurkan Mainnetnya Pada 15 Mei
10 Mei 2024