Laporan berita Teknologi
Juni 19, 2023

SnapFusion: Model Text-to-Image Cepat untuk Perangkat Seluler dalam 1.9 Detik

Singkatnya

SnapFusion mengubah pembuatan konten dengan menjalankan model difusi teks-ke-gambar langsung di perangkat seluler, mengurangi biaya dan mengatasi masalah privasi.

SnapFusion adalah model AI teks-ke-gambar yang memungkinkan pengguna menghasilkan gambar menakjubkan dari deskripsi bahasa alami, semuanya hanya dalam dua detik di perangkat seluler mereka. Lewatlah sudah hari-hari mengandalkan GPU kelas atas atau layanan berbasis cloud untuk menjalankan model kompleks ini. SnapFusion mendemokratisasi pembuatan konten dengan menempatkan kekuatan difusi teks-ke-gambar di tangan pengguna.

SnapFusion: Model Text-to-Image yang Cepat dan Efisien untuk Perangkat Seluler dalam 1.9 Detik
kredit: Midjourney / lili10292#2100

Membuat gambar realistis dari deskripsi teks selalu menjadi tugas yang menantang. Model sebelumnya membutuhkan arsitektur jaringan yang besar dan beberapa iterasi denoising, membuatnya komputasi mahal dan lambat. Selain itu, menjalankan model ini sering melibatkan pengiriman data pengguna ke layanan pihak ketiga, meningkatkan masalah privasi.

Untuk mengatasi tantangan ini, pembuat SnapFusion mengembangkan arsitektur jaringan yang efisien dan meningkatkan proses distilasi bertahap. Dengan mengidentifikasi redudansi dalam model aslinya, mereka memperkenalkan UNet yang efisien dan mengurangi perhitungan dekoder gambar distilasi data. Selain itu, mereka menyempurnakan distilasi langkah dengan mengeksplorasi strategi pelatihan dan memperkenalkan teknik regularisasi.

arxiv.org/pdf/2306.00980.pdf

Eksperimen ekstensif pada Kumpulan data MS-COCO mendemonstrasikan keunggulan SnapFusion. Dengan hanya delapan langkah denoising, SnapFusion mencapai skor FID dan CLIP yang lebih baik dibandingkan sebelumnya model tercanggih, Stable Diffusion v1.5, yang membutuhkan 50 langkah. Peningkatan luar biasa dalam efisiensi dan kinerja ini membuka kemungkinan baru dalam pembuatan konten.

Dampak SnapFusion melampaui pencapaian teknisnya. Dengan berlari model difusi teks-ke-gambar langsung di perangkat seluler, menghilangkan kebutuhan akan GPU mahal dan layanan berbasis cloud. Hal ini tidak hanya mengurangi biaya tetapi juga mengatasi masalah privasi yang terkait dengan pengiriman data pengguna ke pihak ketiga. Pengguna sekarang dapat melepaskan kreativitas mereka dan menghasilkan gambar berkualitas tinggi saat bepergian.

Ukuran parameter model dapat dikurangi lebih lanjut agar kompatibel dengan berbagai perangkat edge. Selain itu, mengoptimalkan model untuk berbagai perangkat seluler mencapai inferensi cepat kecepatan adalah topik penelitian yang sedang berlangsung.

Penting untuk menggunakan SnapFusion dan teknologi serupa secara bertanggung jawab untuk mencegah aplikasi berbahaya. Tindakan dapat diambil, seperti sistem deteksi otomatis yang mengidentifikasi dan menandai konten gambar yang melanggar peraturan. Dengan menyeimbangkan antara inovasi dan pertimbangan etis, SnapFusion dapat mengubah pembuatan konten sambil memastikan pengalaman pengguna yang aman dan bertanggung jawab.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
LD Capital, Antalpha Ventures, dan Highblock Limited Bergabung Untuk Meluncurkan Dana Likuiditas ETF Hong Kong senilai $128 juta
Bisnis pasar Laporan berita
LD Capital, Antalpha Ventures, dan Highblock Limited Bergabung Untuk Meluncurkan Dana Likuiditas ETF Hong Kong senilai $128 juta
8 Mei 2024
Inside Wall Street Memes (WSM): Mengungkap Berita Utama
Bisnis pasar Cerita dan Ulasan Teknologi
Inside Wall Street Memes (WSM): Mengungkap Berita Utama
7 Mei 2024
Temukan Paus Kripto: Siapa di Pasar
Bisnis pasar Cerita dan Ulasan Teknologi
Temukan Paus Kripto: Siapa di Pasar
7 Mei 2024
Orbiter Finance Bermitra Dengan Jaringan Zulu Bitcoin Layer 2 Dan Disebarkan Di Lwazi Testnet
Bisnis Laporan berita Teknologi
Orbiter Finance Bermitra Dengan Jaringan Zulu Bitcoin Layer 2 Dan Disebarkan Di Lwazi Testnet 
7 Mei 2024