Laporan berita Teknologi
Januari 24, 2023

GLIGEN: model pembuatan teks-ke-gambar beku baru dengan kotak pembatas

Singkatnya

GLIGEN, atau Grounded-Language-to-Image Generation, adalah teknik baru yang membangun dan memperluas kemampuan model difusi pra-pelatihan saat ini.

Dengan teks dan input kondisi kotak pembatas, model GLIGEN menghasilkan teks2img berbasis dunia terbuka.

GLIGEN dapat menghasilkan berbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan dari model text2img yang telah dilatih sebelumnya.

GLIGEN juga dapat membumikan titik kunci manusia saat menghasilkan teks-ke-gambar.

Model difusi teks-ke-gambar berskala besar telah berkembang pesat. Namun, praktik saat ini hanya mengandalkan input teks, yang dapat membatasi kemampuan kontrol. GLIGEN, atau Grounded-Language-to-Image Generation, adalah teknik baru yang dibangun di atas dan memperluas kemampuan model difusi teks-ke-gambar pra-pelatihan saat ini dengan memungkinkannya dikondisikan pada masukan pentanahan.

GLIGEN: model pembuatan teks-ke-gambar beku baru dengan kotak pembatas

Untuk mempertahankan pengetahuan konsep yang luas dari model pra-pelatihan, pengembang membekukan semua bobotnya dan memompa informasi pentanahan ke dalam lapisan baru yang dapat dilatih melalui proses yang terkontrol. Dengan teks dan input kondisi kotak pembatas, model GLIGEN menghasilkan teks-ke-gambar open-world grounded, dan kemampuan grounding digeneralisasikan secara efektif ke konfigurasi dan konsep spasial baru.

Check out demo sini.

GLIGEN didasarkan pada model difusi pra-pelatihan yang ada, bobot aslinya telah dibekukan untuk mempertahankan sejumlah besar pengetahuan pra-pelatihan.
  • GLIGEN didasarkan pada pra-pelatihan yang ada model difusi, bobot aslinya telah dibekukan untuk mempertahankan sejumlah besar pengetahuan pra-terlatih.
  • Di setiap blok transformator, lapisan Gated Self-Attention baru yang dapat dilatih dibuat untuk menyerap input pentanahan tambahan.
  • Setiap token grounding memiliki dua jenis informasi: informasi semantik tentang hal yang di-ground (teks atau gambar yang dikodekan) dan informasi posisi spasial (kotak pembatas yang dikodekan atau poin-poin penting).
Artikel terkait: VToonify: Model AI real-time untuk menghasilkan video potret artistik
Lapisan termodulasi yang baru ditambahkan secara terus-menerus dilatih sebelumnya pada data pentanahan masif (kotak teks gambar), yang lebih hemat biaya daripada metode alternatif menggunakan model difusi prapelatihan, seperti penyempurnaan model lengkap. Mirip dengan Lego, lapisan terlatih yang berbeda dapat dipasang masuk dan keluar untuk memungkinkan berbagai kemampuan baru.
Lapisan termodulasi yang baru ditambahkan terus-menerus dilatih sebelumnya pada data grounding yang sangat besar (kotak teks gambar). Ini lebih hemat biaya dibandingkan metode alternatif yang menggunakan tenaga terlatih model difusi, seperti penyempurnaan model penuh. Mirip dengan Lego, lapisan terlatih yang berbeda dapat dipasang dan dilepas untuk memungkinkan berbagai kemampuan baru.
GLIGEN mendukung pengambilan sampel terjadwal dalam proses difusi untuk inferensi, di mana model dapat secara dinamis memilih untuk menggunakan token pentanahan (dengan menambahkan lapisan baru) atau model difusi asli dengan pendahulu yang baik (dengan mengeluarkan lapisan baru), dan dengan demikian menyeimbangkan kualitas pembangkitan dan kemampuan grounding.
GLIGEN mendukung pengambilan sampel terjadwal dalam proses difusi untuk inferensi, di mana model dapat secara dinamis memilih untuk menggunakan token pentanahan (dengan menambahkan lapisan baru) atau model difusi asli dengan pendahulu yang baik (dengan mengeluarkan lapisan baru), dan dengan demikian menyeimbangkan kualitas pembangkitan dan kemampuan grounding.
GLIGEN dapat menghasilkan berbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan dari model text2img yang telah dilatih sebelumnya.
GLIGEN dapat menghasilkan berbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan dari model text2img yang telah dilatih sebelumnya.
Artikel terkait: Microsoft telah merilis model difusi yang dapat membuat avatar 3D dari satu foto seseorang
GLIGEN juga dapat dilatih menggunakan foto referensi.
GLIGEN juga dapat dilatih menggunakan foto referensi. Baris atas menunjukkan bahwa foto referensi, selain deskripsi tertulis, dapat memberikan karakteristik yang lebih halus seperti gaya dan bentuk mobil. Baris kedua menunjukkan bahwa gambar referensi juga dapat digunakan sebagai gambar gaya, dalam hal ini kami menemukan bahwa membumikannya ke sudut atau tepi gambar sudah cukup.
GLIGEN, seperti model difusi lainnya, dapat melakukan grounded image inpaint, yang dapat menghasilkan objek yang sangat cocok dengan kotak pembatas yang disediakan.
GLIGEN, seperti model difusi lainnya, dapat melakukan grounded image inpaint, yang dapat menghasilkan objek yang sangat cocok dengan kotak pembatas yang disediakan.
GLIGEN juga dapat membumikan titik kunci manusia saat menghasilkan teks-ke-gambar.
GLIGEN juga dapat membumikan poin kunci manusia sementara menghasilkan teks-ke-gambar.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Injective Bergabung Dengan AltLayer Untuk Membawa Keamanan Ulang ke inEVM
Bisnis Laporan berita Teknologi
Injective Bergabung Dengan AltLayer Untuk Membawa Keamanan Ulang ke inEVM
3 Mei 2024
Masa Bekerja Sama Dengan Teller Untuk Memperkenalkan MASA Lending Pool, Memungkinkan Pinjaman USDC Di Pangkalan
pasar Laporan berita Teknologi
Masa Bekerja Sama Dengan Teller Untuk Memperkenalkan MASA Lending Pool, Memungkinkan Pinjaman USDC Di Pangkalan
3 Mei 2024
Velodrome Meluncurkan Versi Beta Superchain Dalam Beberapa Minggu Mendatang Dan Memperluas Di Seluruh Blockchain OP Stack Layer 2
pasar Laporan berita Teknologi
Velodrome Meluncurkan Versi Beta Superchain Dalam Beberapa Minggu Mendatang Dan Memperluas Di Seluruh Blockchain OP Stack Layer 2
3 Mei 2024
CARV Mengumumkan Kemitraan Dengan Aethir Untuk Mendesentralisasikan Lapisan Datanya Dan Mendistribusikan Hadiah
Bisnis Laporan berita Teknologi
CARV Mengumumkan Kemitraan Dengan Aethir Untuk Mendesentralisasikan Lapisan Datanya Dan Mendistribusikan Hadiah
3 Mei 2024