19 сентября, 2023

Модель Würstchen V2 побеждает Stable Diffusion XL с впечатляющей скоростью для создания изображений высокого разрешения

Опубликовано: 19 сентября 2023 г., 3:50 Обновлено: 19 сентября 2023 г., 4:39

Отредактировано и проверено: 19 сентября 2023 г., 3:50.

Недавний твит Статья автора под названием «Würstchen» (по-немецки «Колбаса») привлекла внимание как энтузиастов, так и экспертов. В твите были представлены интригующие результаты создания изображений с использованием новой модели Würstchen V2.

Модель Würstchen V2 побеждает Stable Diffusion XL с впечатляющей скоростью для создания изображений высокого разрешения

Würstchen работает быстро и эффективно, генерируя изображения быстрее, чем такие модели, как Stable Diffusion XL, используя при этом меньше памяти. Это также позволило сократить затраты на обучение: для Würstchen v1 требуется всего 9,000 512 часов графического процессора для обучения при разрешении 512×150,000 по сравнению со XNUMX XNUMX часов графического процессора, затраченных на Stable Diffusion 1.4. Такое 16-кратное снижение затрат не только принесет пользу исследователям, проводящим новые эксперименты, но и откроет возможности для обучения таких моделей большему количеству организаций. Würstchen v2 использовал 24,602 6 часа графического процессора, что делает его в 1.4 раз дешевле, чем SD512, который обучался только при разрешении 512×XNUMX.

Одной из выдающихся особенностей, которая сразу привлекла внимание сообщества искусственного интеллекта, является впечатляющая скорость Würstchen V2. По словам автора, генерация четырех изображений размером 1024×2048 с помощью этой модели занимает всего 7 секунд. Для сравнения: модели SDXL для выполнения той же задачи потребовалось бы сравнительно медленные 40 секунд.

Würstchen V1, представленный ранее, разделяет основу SDXL в качестве латентного варианта. Диффузионная модель но включает более быструю архитектуру Unet. Поскольку сообщество с нетерпением ожидает дальнейших подробностей об архитектуре Würstchen V2, одно лишь повышение скорости отмечает это как примечательное событие.

Вюрстхен V2 - это диффузионная модель который работает в сильно сжатом скрытом пространстве изображений, на порядки сокращая вычислительные затраты на обучение и вывод. В нем используется новая конструкция, обеспечивающая 42-кратное пространственное сжатие, ранее невиданное достижение. Вюрстхен использует двухэтапное сжатие, этап A и этап B, которые декодируют сжатые изображения обратно в пиксельное пространство. Третья модель, этап C, изучается в сильно сжатом скрытом пространстве, требуя части вычислительных ресурсов, используемых для текущих наиболее эффективных моделей, но при этом обеспечивая более дешевый и быстрый вывод.

Würstchen V2 состоит из двух этапов диффузии:

Этап А: Этот этап включает в себя обусловленное текстом распространение и может похвастаться ошеломляющим 1 миллиардом параметров. Ускорение здесь достигается за счет методов сверхвысокого сжатия. Примечательно, что вместо скрытого размера кода 128x128x4, как это видно в SDXL, Würstchen V2 изначально работает с разрешением 24x24x16. Это означает меньше пикселей, но больше каналов, что приводит к значительному увеличению скорости.

Этап Б: Это диффузионная модель, оснащенная 600 миллионами параметров, отвечающих за распаковку изображения с 24×24 до разрешения 128×128.

Завершает процесс декодер с 20 миллионами параметров, который преобразует скрытый код в визуализированное изображение.

Практическое преимущество, которое сразу же бросается в глаза, — это замечательная скорость Würstchen V2. Он работает со скоростью, которая в 2–2.5 раза выше, чем SDXL, что является заметным достижением в области Генерация изображений ИИ.

Как и в случае с любой технологической инновацией, здесь могут быть компромиссы. Что касается качества изображения, некоторые эксперты предполагают небольшую потерю, хотя еще предстоит всестороннее и честное сравнение, чтобы предоставить конкретные доказательства.

Ниже приведены сгенерированные примеры преобразования текста в изображение:

Читайте другие связанные темы:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.

Другие статьи

Дамир Ялалов