GLIGEN: новая замороженная модель генерации текста в изображение с ограничивающей рамкой
Коротко
GLIGEN, или Grounded-Language-to-Image Generation, — это новый метод, основанный на существующих предварительно обученных моделях распространения и расширяющий их возможности.
С вводом условий подписи и ограничивающей рамки модель GLIGEN генерирует основанный на открытом мире text2img.
GLIGEN может генерировать множество объектов в определенных местах и стилях, используя знания из предварительно обученной модели text2img.
GLIGEN также может заземлять ключевые точки человека при преобразовании текста в изображения.
Крупномасштабные модели диффузии текста в изображение прошли долгий путь. Однако текущая практика заключается в том, чтобы полагаться исключительно на ввод текста, что может ограничить управляемость. ГЛИГЕН, или «Генерация заземленного языка в изображение», — это новый метод, который основывается на существующих предварительно обученных моделях преобразования текста в изображение и расширяет их возможности, позволяя им обусловливаться входными сигналами заземления.
Чтобы сохранить обширные концептуальные знания предварительно обученной модели, разработчики замораживают все ее веса и закачивают информацию о заземлении в новые обучаемые слои с помощью контролируемого процесса. С вводом условий подписи и ограничительной рамки модель GLIGEN генерирует основанный на открытом мире текст для изображения, а способность заземления эффективно обобщается для новых пространственных конфигураций и концепций.
Попробуйте демонстрация здесь.
- GLIGEN основан на существующих предварительно обученных диффузионные модели, исходные веса которых были заморожены, чтобы сохранить огромное количество предварительно обученных знаний.
- В каждом блоке трансформатора создается новый обучаемый слой Gated Self-Attention для поглощения дополнительного заземления.
- Каждый токен заземления имеет два типа информации: семантическую информацию о заземленном предмете (закодированный текст или изображение) и информацию о пространственном положении (закодированную ограничивающую рамку или ключевые точки).
Связанная статья: VToonify: модель искусственного интеллекта в реальном времени для создания художественных портретных видео. |
Связанная статья: Microsoft выпустила диффузионную модель, которая может построить 3D-аватар из одной фотографии человека. |
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.