Januari 24, 2023

GLIGEN: model penjanaan teks-ke-imej beku baharu dengan kotak sempadan

Diterbitkan: 24 Januari 2023 pada 5:00 petang Kemas kini: 21 Mac 2024 pada 11:40 pagi

Disunting dan disemak fakta: 24 Januari 2023 jam 5:00 tengahari

Secara ringkas

GLIGEN, atau Grounded-Language-to-Image Generation, ialah teknik baru yang membina dan memanjangkan keupayaan model resapan pra-latihan semasa.

Dengan kapsyen dan input keadaan kotak sempadan, model GLIGEN menjana text2img berasaskan dunia terbuka.

GLIGEN boleh menjana pelbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan daripada model text2img terlatih.

GLIGEN juga boleh membumikan titik kunci manusia semasa menjana teks kepada imej.

Model penyebaran teks-ke-imej berskala besar telah datang jauh. Walau bagaimanapun, amalan semasa adalah bergantung semata-mata pada input teks, yang boleh mengehadkan kebolehkawalan. GLIGEN, atau Penjanaan Bahasa-ke-Imej Berasaskan, ialah teknik baru yang membina dan memanjangkan keupayaan model resapan teks-ke-imej terlatih semasa dengan membenarkannya dikondisikan pada input pembumian.

GLIGEN: model penjanaan teks-ke-imej beku baharu dengan kotak sempadan

Untuk mengekalkan pengetahuan konsep luas model pra-latihan, pembangun membekukan semua pemberatnya dan mengepam maklumat pembumian ke lapisan baharu yang boleh dilatih melalui proses terkawal. Dengan kapsyen dan input keadaan kotak sempadan, model GLIGEN menjana teks-ke-imej berasaskan dunia terbuka, dan keupayaan pembumian digeneralisasikan secara berkesan kepada konfigurasi dan konsep spatial baharu.

Semak demo di sini.

GLIGEN adalah berdasarkan model penyebaran terlatih sedia ada, pemberat asalnya telah dibekukan untuk mengekalkan sejumlah besar pengetahuan pra-latihan.

GLIGEN adalah berdasarkan pra-latihan sedia ada model penyebaran, pemberat asal yang telah dibekukan untuk mengekalkan sejumlah besar pengetahuan pra-latihan.
Pada setiap blok pengubah, lapisan Perhatian Diri Berpagar baharu yang boleh dilatih dicipta untuk menyerap input pembumian tambahan.
Setiap token pembumian mempunyai dua jenis maklumat: maklumat semantik tentang perkara yang dibumikan (teks atau imej yang dikodkan) dan maklumat kedudukan spatial (kotak sempadan yang dikodkan atau titik utama).

Artikel berkaitan: VToonify: Model AI masa nyata untuk menjana video potret artistik

Lapisan termodulat yang baru ditambah dipralatih secara berterusan pada data pembumian besar-besaran (kotak-teks imej), yang lebih menjimatkan kos daripada kaedah alternatif menggunakan model resapan terlatih, seperti penalaan halus model penuh. Sama seperti Lego, lapisan terlatih yang berbeza boleh dipasang masuk dan keluar untuk membolehkan pelbagai keupayaan baharu. — Lapisan termodulat yang baru ditambah secara berterusan dipralatih pada data pembumian besar-besaran (kotak-teks imej). Ini adalah lebih kos efektif daripada kaedah alternatif menggunakan pra-latihan model penyebaran, seperti penalaan halus model penuh. Sama seperti Lego, lapisan terlatih yang berbeza boleh dipasang masuk dan keluar untuk membolehkan pelbagai keupayaan baharu.

GLIGEN menyokong pensampelan berjadual dalam proses resapan untuk inferens, di mana model boleh memilih secara dinamik untuk menggunakan token pembumian (dengan menambahkan lapisan baharu) atau model resapan asal dengan sebelumnya yang baik (dengan menendang keluar lapisan baharu), dan dengan itu mengimbangi kualiti penjanaan dan keupayaan pembumian.

GLIGEN boleh menjana pelbagai objek di tempat dan gaya tertentu dengan memanfaatkan pengetahuan daripada model text2img terlatih.

Artikel berkaitan: Microsoft telah mengeluarkan model penyebaran yang boleh membina avatar 3D daripada satu foto seseorang

GLIGEN juga boleh dilatih menggunakan gambar rujukan. Baris atas menunjukkan bahawa gambar rujukan, sebagai tambahan kepada penerangan bertulis, boleh memberikan ciri yang lebih halus seperti gaya dan bentuk kereta. Baris kedua menunjukkan bahawa imej rujukan juga boleh digunakan sebagai imej gaya, dalam hal ini kami mendapati bahawa membumikannya ke sudut atau tepi imej sudah memadai.

GLIGEN, seperti model resapan lain, boleh melakukan catan imej dibumikan, yang boleh menjana objek yang hampir sepadan dengan kotak sempadan yang dibekalkan.

GLIGEN juga boleh membumikan titik kunci manusia semasa menjana teks kepada imej. — GLIGEN juga boleh membumikan perkara utama manusia manakala menghasilkan teks-ke-imej.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov