Януари 24, 2023

GLIGEN: нов модел за генериране на замразен текст към изображение с ограничителна кутия

Публикувано: 24 януари 2023 г. в 5:00 ч. Актуализирано: 21 март 2024 г. в 11:40 ч.

Редактирано и проверени факти: 24 януари 2023 г. в 5:00 ч.

Накратко

GLIGEN, или Grounded-Language-to-Image Generation, е нова техника, която надгражда и разширява възможностите на текущите предварително обучени дифузионни модели.

С надписи и въведени условия на ограничителна кутия моделът GLIGEN генерира заземен text2img в отворен свят.

GLIGEN може да генерира различни обекти на определени места и стилове, като използва знания от предварително обучен text2img модел.

GLIGEN може също така да заземи човешки ключови точки, докато генерира текст към изображения.

Мащабните модели за разпространение на текст към изображение изминаха дълъг път. Настоящата практика обаче е да се разчита единствено на въвеждане на текст, което може да ограничи контролируемостта. ГЛИГЕН, или Grounded-Language-to-Image Generation, е нова техника, която надгражда и разширява способността на текущите предварително обучени модели за разпространение на текст към изображение, като им позволява да бъдат обусловени от заземяващи входове.

GLIGEN: нов модел за генериране на замразен текст към изображение с ограничителна кутия

За да запазят обширните концептуални познания на предварително обучения модел, разработчиците замразяват всичките му тежести и изпомпват информацията за заземяването в нови обучаеми слоеве чрез контролиран процес. С въвеждането на условия за надпис и ограничителна кутия, моделът GLIGEN генерира заземен текст към изображение в отворен свят, а способността за заземяване се обобщава ефективно към нови пространствени конфигурации и концепции.

Напускане на демонстрация тук.

GLIGEN се основава на съществуващи предварително обучени дифузионни модели, чиито оригинални тегла са замразени, за да се запазят огромни количества предварително обучени знания.

GLIGEN се основава на съществуващо предварително обучение дифузионни модели, чиито оригинални тегла са замразени, за да се запазят огромни количества предварително обучени знания.
При всеки трансформаторен блок се създава нов обучаем слой Gated Self-Attention, за да абсорбира допълнително заземяване.
Всеки токен за заземяване има два вида информация: семантична информация за заземеното нещо (кодиран текст или изображение) и информация за пространствена позиция (кодирана ограничителна кутия или ключови точки).

Свързана статия: VToonify: AI модел в реално време за генериране на художествени портретни видеоклипове

Новодобавените модулирани слоеве непрекъснато се обучават предварително върху масивни данни за заземяване (изображение-текстово поле), което е по-рентабилно от алтернативните методи за използване на предварително обучен модел на дифузия, като фина настройка на пълен модел. Подобно на Lego, различни обучени слоеве могат да се включват и изключват, за да позволят различни нови възможности. — Новодобавените модулирани слоеве непрекъснато се обучават предварително върху масивни данни за заземяване (текстово поле за изображение). Това е по-рентабилно от алтернативните методи за използване на предварително обучен дифузионен модел, като фина настройка на пълен модел. Подобно на Lego, различни обучени слоеве могат да се включват и изключват, за да позволят различни нови възможности.

GLIGEN поддържа планирано вземане на проби в процеса на дифузия за извод, където моделът може динамично да избере да използва токени за заземяване (чрез добавяне на новия слой) или оригиналния модел на дифузия с добро предварително (чрез изхвърляне на новия слой) и по този начин да балансира качеството на генериране и способност за заземяване.

GLIGEN може да генерира различни обекти на определени места и стилове, като използва знания от предварително обучен text2img модел.

Свързана статия: Microsoft пусна дифузионен модел, който може да изгради 3D аватар от една снимка на човек

GLIGEN може също да бъде обучен с помощта на референтни снимки. Горният ред предполага, че референтните снимки, в допълнение към писмените описания, могат да предоставят по-фини характеристики като стил и форма на автомобила. Вторият ред демонстрира, че референтно изображение може да се използва и като стилово изображение, в който случай откриваме, че заземяването му в ъгъл или край на изображение е достатъчно.

GLIGEN, подобно на други дифузионни модели, може да извършва боядисване на заземени изображения, което може да генерира обекти, които съвпадат много с предоставените ограничителни полета.

GLIGEN може също така да заземи човешки ключови точки, докато генерира текст към изображения. — GLIGEN може също да заземи човешки ключови точки, докато генериране на текст към изображения.

Прочетете повече за AI:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов