Laporan berita
20 Maret, 2023

Model Text-to-Image Baru GigaGAN Dapat Menghasilkan Gambar 4K dalam 3.66 detik

Singkatnya

Para peneliti telah mengembangkan model teks-ke-gambar baru yang disebut GigaGAN yang dapat menghasilkan gambar 4K dalam 3.66 detik.

Ini didasarkan pada kerangka kerja GAN (generative adversarial network), yang merupakan sejenis saraf jaringan yang dapat belajar menghasilkan data yang mirip dengan kumpulan data pelatihan. GigaGAN mampu menghasilkan gambar 512px pada 0.13 detik, 10 kali lebih cepat dari model canggih sebelumnya, dan memiliki ruang laten yang tidak terurai, kontinu, dan dapat dikontrol.

Ini juga dapat digunakan untuk melatih upsampler yang efisien dan berkualitas lebih tinggi.

Para peneliti telah mengembangkan model teks-ke-gambar baru yang disebut GigaGAN yang dapat menghasilkan Gambar 4K dalam 3.66 detik. Ini adalah peningkatan besar dibandingkan model teks-ke-gambar yang ada, yang dapat memakan waktu beberapa menit atau bahkan berjam-jam untuk menghasilkan satu gambar.

Model teks-ke-gambar baru GigaGAN dapat menghasilkan gambar 4K dalam 3.66 detik

GigaGAN didasarkan pada kerangka kerja GAN (generative adversarial network), yang merupakan jenis jaringan saraf yang dapat belajar menghasilkan data yang mirip dengan dataset pelatihan. GAN telah digunakan untuk menghasilkan gambar wajah, lanskap, dan bahkan gambar Street View yang realistis.

Baca lebih lanjut: 5+ Model AI Text-to-Image Paling Diantisipasi tahun 2023

Model baru ini telah dilatih pada kumpulan data 1 miliar gambar, yang besarnya lebih besar daripada kumpulan data yang digunakan untuk melatih model teks-ke-gambar sebelumnya. Hasilnya, GigaGAN mampu menghasilkan gambar 512px pada 0.13 detik, yang lebih dari 10 kali lebih cepat daripada model text-to-image canggih sebelumnya.

Selain itu, GigaGAN hadir dengan ruang laten yang tidak terurai, kontinu, dan dapat dikontrol. Ini berarti GigaGAN dapat menghasilkan gambar yang memiliki berbagai gaya berbeda, dan gambar yang dihasilkan dapat dikontrol sampai batas tertentu. Misalnya, GigaGAN dapat menghasilkan gambar yang mempertahankan tata letak input teks, yang penting untuk aplikasi, misalnya saat membuat gambar tata letak produk dari deskripsi teks.

GigaGAN juga dapat digunakan untuk melatih upsampler yang efisien dan berkualitas lebih tinggi. Ini dapat diterapkan pada gambar nyata atau pada keluaran lainnya model teks-ke-gambar.

Cabang penyandian teks, jaringan pemetaan gaya, jaringan sintesis multi-skala, dan perhatian stabil serta pemilihan kernel adaptif adalah bagian dari generator GigaGAN. Pengembang memulai cabang penyandian teks dengan mengekstraksi penyematan teks dengan model CLIP terlatih dan mempelajari lapisan perhatian T. Sama halnya dengan GayaGAN, penyematan diteruskan ke jaringan pemetaan gaya M, yang menghasilkan vektor gaya w. Untuk menghasilkan piramida gambar, jaringan sintesis sekarang menggunakan kode gaya sebagai modulasi dan penyisipan teks sebagai perhatian. Selain itu, pengembang memperkenalkan pemilihan kernel sampel-adaptif untuk memilih kernel konvolusi secara adaptif berdasarkan pengkondisian teks masukan.

Diskriminator, seperti halnya generator, memiliki dua cabang untuk memproses gambar dan pengkondisian teks. Cabang teks, seperti generator, memproses teks. Cabang citra diberi piramida citra dan bertugas membuat prediksi independen untuk setiap skala citra. Selanjutnya, prediksi dibuat pada semua skala lapisan downsampling berikutnya. Kerugian tambahan juga digunakan untuk mendorong konvergensi yang efektif.

Seperti yang ditunjukkan pada kisi interpolasi, GigaGAN memungkinkan interpolasi yang mulus di antara prompt. Keempat sudut dibuat menggunakan z laten yang sama tetapi petunjuk teks berbeda.

Karena GigaGAN mempertahankan ruang laten yang tidak terurai, pengembang dapat menggabungkan gaya kasar dari satu sampel dengan gaya halus dari sampel lainnya. GigaGAN juga dapat mengontrol gaya secara langsung dengan perintah teks.

Baca artikel terkait lainnya:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak

Pendiri Dompet Samourai Dituduh Memfasilitasi $2 Miliar dalam Penawaran Darknet

Kekhawatiran para pendiri Samourai Wallet menunjukkan kemunduran besar bagi industri ini, yang menggarisbawahi ...

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Pantera Capital Berinvestasi di TON Blockchain, Menyatakan Keyakinan Terhadap Potensi Telegram Untuk Memperluas Aksesibilitas Kripto
Bisnis Laporan berita Teknologi
Pantera Capital Berinvestasi di TON Blockchain, Menyatakan Keyakinan Terhadap Potensi Telegram Untuk Memperluas Aksesibilitas Kripto
2 Mei 2024
Mitosis Mengumpulkan Pendanaan $7M Dari Amber Group Dan Foresight Ventures Untuk Memajukan Protokol Likuiditas Modularnya
Bisnis Laporan berita Teknologi
Mitosis Mengumpulkan Pendanaan $7M Dari Amber Group Dan Foresight Ventures Untuk Memajukan Protokol Likuiditas Modularnya
2 Mei 2024
Galxe Bermitra Dengan Jambo Untuk Memperluas Aksesibilitas Global Ke Web3
Bisnis Laporan berita Teknologi
Galxe Bermitra Dengan Jambo Untuk Memperluas Aksesibilitas Global Ke Web3
2 Mei 2024
Anggota Dewan Legislatif Hong Kong Wu Jiezhuang Memberi Sinyal Gugatan Perdata Terhadap Pertukaran Kripto JPEX
Bisnis Laporan berita Teknologi
Anggota Dewan Legislatif Hong Kong Wu Jiezhuang Memberi Sinyal Gugatan Perdata Terhadap Pertukaran Kripto JPEX
2 Mei 2024