Новостной репортаж Технологии
19 сентября, 2023

Модель Würstchen V2 побеждает Stable Diffusion XL с впечатляющей скоростью для создания изображений высокого разрешения

Недавний твит Статья автора под названием «Würstchen» (по-немецки «Колбаса») привлекла внимание как энтузиастов, так и экспертов. В твите были представлены интригующие результаты создания изображений с использованием новой модели Würstchen V2.

Модель Würstchen V2 побеждает Stable Diffusion XL с впечатляющей скоростью для создания изображений высокого разрешения
Похожие страницы:: Midjourney 5.2 и Stable Diffusion Обновления SDXL 0.9 для творческого преобразования текста в изображение

Würstchen работает быстро и эффективно, генерируя изображения быстрее, чем такие модели, как Stable Diffusion XL, используя при этом меньше памяти. Это также позволило сократить затраты на обучение: для Würstchen v1 требуется всего 9,000 512 часов графического процессора для обучения при разрешении 512×150,000 по сравнению со XNUMX XNUMX часов графического процессора, затраченных на Stable Diffusion 1.4. Такое 16-кратное снижение затрат не только принесет пользу исследователям, проводящим новые эксперименты, но и откроет возможности для обучения таких моделей большему количеству организаций. Würstchen v2 использовал 24,602 6 часа графического процессора, что делает его в 1.4 раз дешевле, чем SD512, который обучался только при разрешении 512×XNUMX.

Одной из выдающихся особенностей, которая сразу привлекла внимание сообщества искусственного интеллекта, является впечатляющая скорость Würstchen V2. По словам автора, генерация четырех изображений размером 1024×2048 с помощью этой модели занимает всего 7 секунд. Для сравнения: модели SDXL для выполнения той же задачи потребовалось бы сравнительно медленные 40 секунд.

Würstchen V1, представленный ранее, разделяет основу SDXL в качестве латентного варианта. Диффузионная модель но включает более быструю архитектуру Unet. Поскольку сообщество с нетерпением ожидает дальнейших подробностей об архитектуре Würstchen V2, одно лишь повышение скорости отмечает это как примечательное событие.

Вюрстхен V2 - это диффузионная модель который работает в сильно сжатом скрытом пространстве изображений, на порядки сокращая вычислительные затраты на обучение и вывод. В нем используется новая конструкция, обеспечивающая 42-кратное пространственное сжатие, ранее невиданное достижение. Вюрстхен использует двухэтапное сжатие, этап A и этап B, которые декодируют сжатые изображения обратно в пиксельное пространство. Третья модель, этап C, изучается в сильно сжатом скрытом пространстве, требуя части вычислительных ресурсов, используемых для текущих наиболее эффективных моделей, но при этом обеспечивая более дешевый и быстрый вывод.

Würstchen V2 состоит из двух этапов диффузии:

  • Этап А: Этот этап включает в себя обусловленное текстом распространение и может похвастаться ошеломляющим 1 миллиардом параметров. Ускорение здесь достигается за счет методов сверхвысокого сжатия. Примечательно, что вместо скрытого размера кода 128x128x4, как это видно в SDXL, Würstchen V2 изначально работает с разрешением 24x24x16. Это означает меньше пикселей, но больше каналов, что приводит к значительному увеличению скорости.
  • Этап Б: Это диффузионная модель, оснащенная 600 миллионами параметров, отвечающих за распаковку изображения с 24×24 до разрешения 128×128.

Завершает процесс декодер с 20 миллионами параметров, который преобразует скрытый код в визуализированное изображение.

Практическое преимущество, которое сразу же бросается в глаза, — это замечательная скорость Würstchen V2. Он работает со скоростью, которая в 2–2.5 раза выше, чем SDXL, что является заметным достижением в области Генерация изображений ИИ.

Как и в случае с любой технологической инновацией, здесь могут быть компромиссы. Что касается качества изображения, некоторые эксперты предполагают небольшую потерю, хотя еще предстоит всестороннее и честное сравнение, чтобы предоставить конкретные доказательства.

Ниже приведены сгенерированные примеры преобразования текста в изображение:

Читайте другие связанные темы:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Nexo начинает «охоту», чтобы вознаградить пользователей токенами NEXO на сумму 12 миллионов долларов за взаимодействие с ее экосистемой
Области применения: Новостной репортаж Технологии
Nexo начинает «охоту», чтобы вознаградить пользователей токенами NEXO на сумму 12 миллионов долларов за взаимодействие с ее экосистемой
8 мая 2024
Биржа Revolut X Revolut привлекает криптотрейдеров нулевой комиссией производителя и расширенной аналитикой
Области применения: Software Истории и обзоры Технологии
Биржа Revolut X Revolut привлекает криптотрейдеров нулевой комиссией производителя и расширенной аналитикой
8 мая 2024
Криптовалютная торговая платформа BitMEX представляет торговлю опционами с нулевой комиссией и денежными стимулами
Бизнес Области применения: Новостной репортаж
Криптовалютная торговая платформа BitMEX представляет торговлю опционами с нулевой комиссией и денежными стимулами
8 мая 2024
Lisk официально переходит на Ethereum Layer 2 и представляет ядро ​​v4.0.6
Новостной репортаж Технологии
Lisk официально переходит на Ethereum Layer 2 и представляет ядро ​​v4.0.6
8 мая 2024
CRYPTOMERIA LABS PTE. ООО