GLIGEN: нов модел за генериране на замразен текст към изображение с ограничителна кутия
Накратко
GLIGEN, или Grounded-Language-to-Image Generation, е нова техника, която надгражда и разширява възможностите на текущите предварително обучени дифузионни модели.
С надписи и въведени условия на ограничителна кутия моделът GLIGEN генерира заземен text2img в отворен свят.
GLIGEN може да генерира различни обекти на определени места и стилове, като използва знания от предварително обучен text2img модел.
GLIGEN може също така да заземи човешки ключови точки, докато генерира текст към изображения.
Мащабните модели за разпространение на текст към изображение изминаха дълъг път. Настоящата практика обаче е да се разчита единствено на въвеждане на текст, което може да ограничи контролируемостта. ГЛИГЕН, или Grounded-Language-to-Image Generation, е нова техника, която надгражда и разширява способността на текущите предварително обучени модели за разпространение на текст към изображение, като им позволява да бъдат обусловени от заземяващи входове.
За да запазят обширните концептуални познания на предварително обучения модел, разработчиците замразяват всичките му тежести и изпомпват информацията за заземяването в нови обучаеми слоеве чрез контролиран процес. С въвеждането на условия за надпис и ограничителна кутия, моделът GLIGEN генерира заземен текст към изображение в отворен свят, а способността за заземяване се обобщава ефективно към нови пространствени конфигурации и концепции.
Напускане на демонстрация тук.
- GLIGEN се основава на съществуващо предварително обучение дифузионни модели, чиито оригинални тегла са замразени, за да се запазят огромни количества предварително обучени знания.
- При всеки трансформаторен блок се създава нов обучаем слой Gated Self-Attention, за да абсорбира допълнително заземяване.
- Всеки токен за заземяване има два вида информация: семантична информация за заземеното нещо (кодиран текст или изображение) и информация за пространствена позиция (кодирана ограничителна кутия или ключови точки).
Свързана статия: VToonify: AI модел в реално време за генериране на художествени портретни видеоклипове |
Свързана статия: Microsoft пусна дифузионен модел, който може да изгради 3D аватар от една снимка на човек |
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.