20 Maret, 2023

Model Text-to-Image Baru GigaGAN Dapat Menghasilkan Gambar 4K dalam 3.66 detik

Diterbitkan: 20 Maret 2023 pukul 4 Diperbarui: 10 Maret 20 pukul 2023

Singkatnya

Para peneliti telah mengembangkan model teks-ke-gambar baru yang disebut GigaGAN yang dapat menghasilkan gambar 4K dalam 3.66 detik.

Ini didasarkan pada kerangka kerja GAN (generative adversarial network), yang merupakan sejenis saraf jaringan yang dapat belajar menghasilkan data yang mirip dengan kumpulan data pelatihan. GigaGAN mampu menghasilkan gambar 512px pada 0.13 detik, 10 kali lebih cepat dari model canggih sebelumnya, dan memiliki ruang laten yang tidak terurai, kontinu, dan dapat dikontrol.

Ini juga dapat digunakan untuk melatih upsampler yang efisien dan berkualitas lebih tinggi.

Para peneliti telah mengembangkan model teks-ke-gambar baru yang disebut GigaGAN yang dapat menghasilkan Gambar 4K dalam 3.66 detik. Ini adalah peningkatan besar dibandingkan model teks-ke-gambar yang ada, yang dapat memakan waktu beberapa menit atau bahkan berjam-jam untuk menghasilkan satu gambar.

Model teks-ke-gambar baru GigaGAN dapat menghasilkan gambar 4K dalam 3.66 detik

GigaGAN didasarkan pada kerangka kerja GAN (generative adversarial network), yang merupakan jenis jaringan saraf yang dapat belajar menghasilkan data yang mirip dengan dataset pelatihan. GAN telah digunakan untuk menghasilkan gambar wajah, lanskap, dan bahkan gambar Street View yang realistis.

Baca lebih lanjut: 5+ Model AI Text-to-Image Paling Diantisipasi tahun 2023

Model baru ini telah dilatih pada kumpulan data 1 miliar gambar, yang besarnya lebih besar daripada kumpulan data yang digunakan untuk melatih model teks-ke-gambar sebelumnya. Hasilnya, GigaGAN mampu menghasilkan gambar 512px pada 0.13 detik, yang lebih dari 10 kali lebih cepat daripada model text-to-image canggih sebelumnya.

Selain itu, GigaGAN hadir dengan ruang laten yang tidak terurai, kontinu, dan dapat dikontrol. Ini berarti GigaGAN dapat menghasilkan gambar yang memiliki berbagai gaya berbeda, dan gambar yang dihasilkan dapat dikontrol sampai batas tertentu. Misalnya, GigaGAN dapat menghasilkan gambar yang mempertahankan tata letak input teks, yang penting untuk aplikasi, misalnya saat membuat gambar tata letak produk dari deskripsi teks.

GigaGAN juga dapat digunakan untuk melatih upsampler yang efisien dan berkualitas lebih tinggi. Ini dapat diterapkan pada gambar nyata atau pada keluaran lainnya model teks-ke-gambar.

Cabang penyandian teks, jaringan pemetaan gaya, jaringan sintesis multi-skala, dan perhatian stabil serta pemilihan kernel adaptif adalah bagian dari generator GigaGAN. Pengembang memulai cabang penyandian teks dengan mengekstraksi penyematan teks dengan model CLIP terlatih dan mempelajari lapisan perhatian T. Sama halnya dengan GayaGAN, penyematan diteruskan ke jaringan pemetaan gaya M, yang menghasilkan vektor gaya w. Untuk menghasilkan piramida gambar, jaringan sintesis sekarang menggunakan kode gaya sebagai modulasi dan penyisipan teks sebagai perhatian. Selain itu, pengembang memperkenalkan pemilihan kernel sampel-adaptif untuk memilih kernel konvolusi secara adaptif berdasarkan pengkondisian teks masukan.

Diskriminator, seperti halnya generator, memiliki dua cabang untuk memproses gambar dan pengkondisian teks. Cabang teks, seperti generator, memproses teks. Cabang citra diberi piramida citra dan bertugas membuat prediksi independen untuk setiap skala citra. Selanjutnya, prediksi dibuat pada semua skala lapisan downsampling berikutnya. Kerugian tambahan juga digunakan untuk mendorong konvergensi yang efektif.

Seperti yang ditunjukkan pada kisi interpolasi, GigaGAN memungkinkan interpolasi yang mulus di antara prompt. Keempat sudut dibuat menggunakan z laten yang sama tetapi petunjuk teks berbeda.

Karena GigaGAN mempertahankan ruang laten yang tidak terurai, pengembang dapat menggabungkan gaya kasar dari satu sampel dengan gaya halus dari sampel lainnya. GigaGAN juga dapat mengontrol gaya secara langsung dengan perintah teks.

Baca artikel terkait lainnya:

Tags:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.

lebih artikel

Damir Yalalov