Січень 24, 2023

GLIGEN: нова модель генерації замороженого тексту в зображення з обмежувальною рамкою

Опубліковано: 24 січня 2023 року о 5:00 Оновлено: 21 березня 2024 року об 11:40

Відредаговано та перевірено: 24 січня 2023 р. о 5:00

Коротко

GLIGEN, або Grounded-Language-to-Image Generation, є новою технікою, яка базується на поточних попередньо навчених моделях дифузії та розширює їх можливості.

Завдяки умовам заголовка та обмежувальної рамки модель GLIGEN генерує обґрунтований text2img у відкритому світі.

GLIGEN може генерувати різноманітні об’єкти в певних місцях і стилях, використовуючи знання попередньо навченої моделі text2img.

GLIGEN також може заземлювати ключові точки людини під час генерації тексту в зображення.

Широкомасштабні моделі дифузії тексту в зображення пройшли довгий шлях. Однак поточна практика полягає в тому, щоб покладатися виключно на введення тексту, що може обмежити контрольованість. ГЛІГЕН, або Grounded-Language-to-Image Generation, є новою технікою, яка будує та розширює можливості поточних попередньо навчених моделей розповсюдження тексту в зображення, дозволяючи їх обумовлювати заземленими вхідними сигналами.

GLIGEN: нова модель генерації замороженого тексту в зображення з обмежувальною рамкою

Щоб зберегти глибокі знання про концепцію попередньо навченої моделі, розробники заморозили всі її ваги та перекачали інформацію про заземлення у нові шари, які можна навчити, за допомогою контрольованого процесу. Завдяки введенню умов підпису та обмежувальної рамки модель GLIGEN генерує заземлений текст у відкритому світі, а здатність заземлення ефективно узагальнює нові просторові конфігурації та концепції.

Від'їзд демонстрація тут.

GLIGEN базується на існуючих попередньо навчених моделях дифузії, вихідні ваги яких були заморожені, щоб зберегти величезну кількість попередньо навчених знань.

GLIGEN базується на існуючому попередньому навчанні дифузійні моделі, оригінальні ваги яких було заморожено, щоб зберегти величезну кількість попередньо навчених знань.
У кожному трансформаторному блоці створюється новий шар самоконтролю, який можна тренувати, щоб поглинати додаткове заземлення.
Кожен маркер заземлення має два типи інформації: семантичну інформацію про заземлену річ (закодований текст або зображення) та інформацію про просторове положення (закодована обмежувальна рамка або ключові точки).

Пов'язана стаття: VToonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео

Нещодавно додані модульовані шари безперервно попередньо тренуються на масивних даних заземлення (текстове поле зображення), що є більш економічно ефективним, ніж альтернативні методи використання попередньо навченої дифузійної моделі, наприклад тонке налаштування повної моделі. Подібно до Lego, різні навчені шари можна підключати та відключати, щоб надати різноманітні нові можливості. — Нещодавно додані модульовані шари постійно попередньо тренуються на масивних даних заземлення (текстове поле зображення). Це економічно ефективніше, ніж альтернативні методи використання попереднього навчання дифузійна модель, наприклад повне налаштування моделі. Подібно до Lego, різні навчені шари можна підключати та відключати, щоб надати різноманітні нові можливості.

GLIGEN підтримує заплановану вибірку в процесі розповсюдження для висновку, де модель може динамічно вибирати використання маркерів заземлення (шляхом додавання нового шару) або вихідної моделі дифузії з хорошим попереднім (шляхом викидання нового шару), і таким чином збалансувати якість генерації і здатність до заземлення.

GLIGEN може генерувати різноманітні об’єкти в певних місцях і стилях, використовуючи знання попередньо навченої моделі text2img.

Пов'язана стаття: Корпорація Майкрософт випустила дифузійну модель, яка може створити 3D-аватар з однієї фотографії людини

GLIGEN також можна навчити за допомогою довідкових зображень. Верхній рядок свідчить про те, що довідкові фотографії, окрім письмових описів, можуть надавати більш детальні характеристики, такі як стиль і форма автомобіля. Другий рядок демонструє, що еталонне зображення також можна використовувати як зображення стилю, і в цьому випадку ми виявляємо, що достатньо приземлити його в кут або край зображення.

GLIGEN, як і інші дифузійні моделі, може виконувати заземлене малювання зображення, яке може генерувати об’єкти, які точно відповідають наданим обмежувальним рамкам.

GLIGEN також може заземлювати ключові точки людини під час генерації тексту в зображення. — GLIGEN також може заземлювати ключові точки людини генерація тексту в зображення.

Докладніше про ШІ:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.

інші статті

Дамір Ялалов