GLIGEN: model pembuatan teks-ke-gambar beku baru dengan kotak pembatas
Singkatnya
GLIGEN, atau Grounded-Language-to-Image Generation, adalah teknik baru yang membangun dan memperluas kemampuan model difusi pra-pelatihan saat ini.
Dengan teks dan input kondisi kotak pembatas, model GLIGEN menghasilkan teks2img berbasis dunia terbuka.
GLIGEN dapat menghasilkan berbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan dari model text2img yang telah dilatih sebelumnya.
GLIGEN juga dapat membumikan titik kunci manusia saat menghasilkan teks-ke-gambar.
Model difusi teks-ke-gambar berskala besar telah berkembang pesat. Namun, praktik saat ini hanya mengandalkan input teks, yang dapat membatasi kemampuan kontrol. GLIGEN, atau Grounded-Language-to-Image Generation, adalah teknik baru yang dibangun di atas dan memperluas kemampuan model difusi teks-ke-gambar pra-pelatihan saat ini dengan memungkinkannya dikondisikan pada masukan pentanahan.
Untuk mempertahankan pengetahuan konsep yang luas dari model pra-pelatihan, pengembang membekukan semua bobotnya dan memompa informasi pentanahan ke dalam lapisan baru yang dapat dilatih melalui proses yang terkontrol. Dengan teks dan input kondisi kotak pembatas, model GLIGEN menghasilkan teks-ke-gambar open-world grounded, dan kemampuan grounding digeneralisasikan secara efektif ke konfigurasi dan konsep spasial baru.
Check out demo sini.
- GLIGEN didasarkan pada pra-pelatihan yang ada model difusi, bobot aslinya telah dibekukan untuk mempertahankan sejumlah besar pengetahuan pra-terlatih.
- Di setiap blok transformator, lapisan Gated Self-Attention baru yang dapat dilatih dibuat untuk menyerap input pentanahan tambahan.
- Setiap token grounding memiliki dua jenis informasi: informasi semantik tentang hal yang di-ground (teks atau gambar yang dikodekan) dan informasi posisi spasial (kotak pembatas yang dikodekan atau poin-poin penting).
Artikel terkait: Microsoft telah merilis model difusi yang dapat membuat avatar 3D dari satu foto seseorang |
Baca lebih lanjut tentang AI:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.