24 января 2023

GLIGEN: новая замороженная модель генерации текста в изображение с ограничивающей рамкой

Опубликовано: 24 января 2023 г. в 5:00 Обновлено: 21 марта 2024 г. в 11:40

Отредактировано и проверено: 24 января 2023 г., 5:00.

Коротко

GLIGEN, или Grounded-Language-to-Image Generation, — это новый метод, основанный на существующих предварительно обученных моделях распространения и расширяющий их возможности.

С вводом условий подписи и ограничивающей рамки модель GLIGEN генерирует основанный на открытом мире text2img.

GLIGEN может генерировать множество объектов в определенных местах и стилях, используя знания из предварительно обученной модели text2img.

GLIGEN также может заземлять ключевые точки человека при преобразовании текста в изображения.

Крупномасштабные модели диффузии текста в изображение прошли долгий путь. Однако текущая практика заключается в том, чтобы полагаться исключительно на ввод текста, что может ограничить управляемость. ГЛИГЕН, или «Генерация заземленного языка в изображение», — это новый метод, который основывается на существующих предварительно обученных моделях преобразования текста в изображение и расширяет их возможности, позволяя им обусловливаться входными сигналами заземления.

GLIGEN: новая замороженная модель генерации текста в изображение с ограничивающей рамкой

Чтобы сохранить обширные концептуальные знания предварительно обученной модели, разработчики замораживают все ее веса и закачивают информацию о заземлении в новые обучаемые слои с помощью контролируемого процесса. С вводом условий подписи и ограничительной рамки модель GLIGEN генерирует основанный на открытом мире текст для изображения, а способность заземления эффективно обобщается для новых пространственных конфигураций и концепций.

Попробуйте демонстрация здесь.

GLIGEN основан на существующих предварительно обученных моделях распространения, исходные веса которых были заморожены, чтобы сохранить огромное количество предварительно обученных знаний.

GLIGEN основан на существующих предварительно обученных диффузионные модели, исходные веса которых были заморожены, чтобы сохранить огромное количество предварительно обученных знаний.
В каждом блоке трансформатора создается новый обучаемый слой Gated Self-Attention для поглощения дополнительного заземления.
Каждый токен заземления имеет два типа информации: семантическую информацию о заземленном предмете (закодированный текст или изображение) и информацию о пространственном положении (закодированную ограничивающую рамку или ключевые точки).

Связанная статья: VToonify: модель искусственного интеллекта в реальном времени для создания художественных портретных видео.

Недавно добавленные модулируемые слои постоянно проходят предварительную подготовку на массивных базовых данных (текстовое поле изображения), что является более экономичным, чем альтернативные методы использования предварительно обученной диффузионной модели, такие как точная настройка полной модели. Как и в Lego, можно подключать и отключать различные обученные слои, чтобы использовать различные новые возможности. — Недавно добавленные модулированные слои постоянно предварительно обучаются на массивных базовых данных (текстовое поле изображения). Это более рентабельно, чем альтернативные методы использования предварительно обученного персонала. диффузионная модель, например, точная настройка полной модели. Как и в случае с Lego, можно подключать и отключать различные обученные слои, открывая новые возможности.

GLIGEN поддерживает запланированную выборку в процессе распространения для вывода, где модель может динамически выбирать использование токенов заземления (путем добавления нового слоя) или исходной модели распространения с хорошим априором (путем исключения нового слоя) и, таким образом, сбалансировать качество генерации. и способность заземления.

GLIGEN может генерировать множество объектов в определенных местах и стилях, используя знания из предварительно обученной модели text2img.

Связанная статья: Microsoft выпустила диффузионную модель, которая может построить 3D-аватар из одной фотографии человека.

GLIGEN также можно тренировать, используя эталонные изображения. Верхний ряд предполагает, что справочные фотографии, в дополнение к письменным описаниям, могут предоставить более подробные характеристики, такие как стиль и форма автомобиля. Второй ряд демонстрирует, что эталонное изображение также можно использовать в качестве изображения стиля, и в этом случае мы обнаружим, что достаточно поместить его в угол или край изображения.

GLIGEN, как и другие модели диффузии, может выполнять отрисовку основанного изображения, что может генерировать объекты, которые точно соответствуют предоставленным ограничивающим рамкам.

GLIGEN также может заземлять ключевые точки человека при преобразовании текста в изображения. — GLIGEN также может заземлять ключевые точки человека, в то время как генерация текста в изображения.

Подробнее об ИИ:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов