Mac 20, 2023

Model Teks-ke-Imej Baharu GigaGAN Boleh Menjana Imej 4K dalam 3.66s

Diterbitkan: 20 Mac 2023 pada 4:10 pagi Dikemas kini: 20 Mac 2023 pada 4:11 pagi

Secara ringkas

Penyelidik telah membangunkan model teks-ke-imej baharu yang dipanggil GigaGAN yang boleh menjana imej 4K pada 3.66 saat.

Ia berdasarkan rangka kerja GAN (generative adversarial network), yang merupakan sejenis rangkaian neural yang boleh belajar menjana data yang serupa dengan set data latihan. GigaGAN mampu menjana imej 512px pada 0.13 saat, 10 kali lebih pantas daripada model tercanggih sebelum ini, dan mempunyai ruang terpendam yang terurai, berterusan dan boleh dikawal.

Ia juga boleh digunakan untuk melatih upsampler yang cekap dan berkualiti tinggi.

Penyelidik telah membangunkan model teks-ke-imej baharu yang dipanggil GigaGAN yang boleh menjana 4K imej dalam 3.66 saat. Ini merupakan peningkatan besar berbanding model teks-ke-imej sedia ada, yang boleh mengambil masa beberapa minit atau bahkan berjam-jam untuk menjana satu imej.

Model teks-ke-imej baharu GigaGAN boleh menjana imej 4K pada 3.66s

GigaGAN adalah berdasarkan rangka kerja GAN (generative adversarial network), iaitu sejenis rangkaian saraf yang boleh belajar menjana data yang serupa dengan set data latihan. GAN telah digunakan untuk menjana imej wajah, landskap dan juga imej Street View yang realistik.

Baca lebih lanjut: 5+ Model AI Teks-ke-Imej Paling Dinantikan pada 2023

Model baharu ini telah dilatih pada set data sebanyak 1 bilion imej, yang merupakan susunan magnitud yang lebih besar daripada set data yang digunakan untuk melatih model teks ke imej yang lebih awal. Hasilnya, GigaGAN mampu menjana imej 512px pada 0.13 saat, iaitu lebih daripada 10 kali lebih pantas daripada model teks-ke-imej terkini.

Selain itu, GigaGAN didatangkan dengan ruang terpendam yang terurai, berterusan dan boleh dikawal. Ini bermakna GigaGAN boleh menjana imej yang mempunyai pelbagai gaya yang berbeza, dan imej yang dihasilkan boleh dikawal sedikit sebanyak. Contohnya, GigaGAN boleh menjana imej yang mengekalkan reka letak input teks, yang penting untuk aplikasi, contohnya, apabila menjana imej susun atur produk daripada penerangan teks.

GigaGAN juga boleh digunakan untuk melatih upsampler yang cekap dan berkualiti tinggi. Ini boleh digunakan pada imej sebenar atau pada output lain model teks ke imej.

Cawangan pengekodan teks, rangkaian pemetaan gaya, rangkaian sintesis berbilang skala, dan perhatian yang stabil dan pemilihan kernel adaptif adalah sebahagian daripada penjana GigaGAN. Pembangun memulakan cawangan pengekodan teks dengan mengekstrak pembenaman teks dengan model CLIP terlatih dan lapisan perhatian yang dipelajari T. Begitu juga dengan StyleGAN, pembenaman dihantar ke rangkaian pemetaan gaya M, yang menjana vektor gaya w. Untuk menjana piramid imej, rangkaian sintesis kini menggunakan kod gaya sebagai modulasi dan pembenaman teks sebagai perhatian. Tambahan pula, pembangun memperkenalkan pemilihan kernel penyesuaian sampel untuk memilih kernel konvolusi secara adaptif berdasarkan pelaziman teks input.

Diskriminator, seperti penjana, mempunyai dua cabang untuk memproses imej dan penyesuaian teks. Cawangan teks, seperti penjana, memproses teks. Cawangan imej diberi piramid imej dan ditugaskan untuk membuat ramalan bebas untuk setiap skala imej. Tambahan pula, ramalan dibuat pada semua skala lapisan pensampelan bawah berikutnya. Kerugian tambahan juga digunakan untuk menggalakkan penumpuan yang berkesan.

Seperti yang ditunjukkan dalam grid interpolasi, GigaGAN membenarkan interpolasi lancar antara gesaan. Empat penjuru dicipta menggunakan z terpendam yang sama tetapi gesaan teks yang berbeza.

Oleh kerana GigaGAN mengekalkan ruang terpendam yang terurai, pembangun boleh menggabungkan gaya kasar satu sampel dengan gaya halus yang lain. GigaGAN juga boleh mengawal gaya secara langsung dengan gesaan teks.

Baca lebih banyak artikel berkaitan:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov