GLIGEN: нова модель генерації замороженого тексту в зображення з обмежувальною рамкою
Коротко
GLIGEN, або Grounded-Language-to-Image Generation, є новою технікою, яка базується на поточних попередньо навчених моделях дифузії та розширює їх можливості.
Завдяки умовам заголовка та обмежувальної рамки модель GLIGEN генерує обґрунтований text2img у відкритому світі.
GLIGEN може генерувати різноманітні об’єкти в певних місцях і стилях, використовуючи знання попередньо навченої моделі text2img.
GLIGEN також може заземлювати ключові точки людини під час генерації тексту в зображення.
Широкомасштабні моделі дифузії тексту в зображення пройшли довгий шлях. Однак поточна практика полягає в тому, щоб покладатися виключно на введення тексту, що може обмежити контрольованість. ГЛІГЕН, або Grounded-Language-to-Image Generation, є новою технікою, яка будує та розширює можливості поточних попередньо навчених моделей розповсюдження тексту в зображення, дозволяючи їх обумовлювати заземленими вхідними сигналами.
Щоб зберегти глибокі знання про концепцію попередньо навченої моделі, розробники заморозили всі її ваги та перекачали інформацію про заземлення у нові шари, які можна навчити, за допомогою контрольованого процесу. Завдяки введенню умов підпису та обмежувальної рамки модель GLIGEN генерує заземлений текст у відкритому світі, а здатність заземлення ефективно узагальнює нові просторові конфігурації та концепції.
Від'їзд демонстрація тут.
- GLIGEN базується на існуючому попередньому навчанні дифузійні моделі, оригінальні ваги яких було заморожено, щоб зберегти величезну кількість попередньо навчених знань.
- У кожному трансформаторному блоці створюється новий шар самоконтролю, який можна тренувати, щоб поглинати додаткове заземлення.
- Кожен маркер заземлення має два типи інформації: семантичну інформацію про заземлену річ (закодований текст або зображення) та інформацію про просторове положення (закодована обмежувальна рамка або ключові точки).
Пов'язана стаття: VToonify: модель штучного інтелекту в реальному часі для створення художніх портретних відео |
Пов'язана стаття: Корпорація Майкрософт випустила дифузійну модель, яка може створити 3D-аватар з однієї фотографії людини |
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.