GLIGEN: model penjanaan teks-ke-imej beku baharu dengan kotak sempadan
Secara ringkas
GLIGEN, atau Grounded-Language-to-Image Generation, ialah teknik baru yang membina dan memanjangkan keupayaan model resapan pra-latihan semasa.
Dengan kapsyen dan input keadaan kotak sempadan, model GLIGEN menjana text2img berasaskan dunia terbuka.
GLIGEN boleh menjana pelbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan daripada model text2img terlatih.
GLIGEN juga boleh membumikan titik kunci manusia semasa menjana teks kepada imej.
Model penyebaran teks-ke-imej berskala besar telah datang jauh. Walau bagaimanapun, amalan semasa adalah bergantung semata-mata pada input teks, yang boleh mengehadkan kebolehkawalan. GLIGEN, atau Penjanaan Bahasa-ke-Imej Berasaskan, ialah teknik baru yang membina dan memanjangkan keupayaan model resapan teks-ke-imej terlatih semasa dengan membenarkannya dikondisikan pada input pembumian.
Untuk mengekalkan pengetahuan konsep luas model pra-latihan, pembangun membekukan semua pemberatnya dan mengepam maklumat pembumian ke lapisan baharu yang boleh dilatih melalui proses terkawal. Dengan kapsyen dan input keadaan kotak sempadan, model GLIGEN menjana teks-ke-imej berasaskan dunia terbuka, dan keupayaan pembumian digeneralisasikan secara berkesan kepada konfigurasi dan konsep spatial baharu.
Semak demo di sini.
- GLIGEN adalah berdasarkan pra-latihan sedia ada model penyebaran, pemberat asal yang telah dibekukan untuk mengekalkan sejumlah besar pengetahuan pra-latihan.
- Pada setiap blok pengubah, lapisan Perhatian Diri Berpagar baharu yang boleh dilatih dicipta untuk menyerap input pembumian tambahan.
- Setiap token pembumian mempunyai dua jenis maklumat: maklumat semantik tentang perkara yang dibumikan (teks atau imej yang dikodkan) dan maklumat kedudukan spatial (kotak sempadan yang dikodkan atau titik utama).
Artikel berkaitan: VToonify: Model AI masa nyata untuk menjana video potret artistik |
Artikel berkaitan: Microsoft telah mengeluarkan model penyebaran yang boleh membina avatar 3D daripada satu foto seseorang |
Baca lebih lanjut mengenai AI:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.