Модель Würstchen V2 побеждает Stable Diffusion XL с впечатляющей скоростью для создания изображений высокого разрешения
Недавний твит Статья автора под названием «Würstchen» (по-немецки «Колбаса») привлекла внимание как энтузиастов, так и экспертов. В твите были представлены интригующие результаты создания изображений с использованием новой модели Würstchen V2.
Похожие страницы:: Midjourney 5.2 и Stable Diffusion Обновления SDXL 0.9 для творческого преобразования текста в изображение |
Würstchen работает быстро и эффективно, генерируя изображения быстрее, чем такие модели, как Stable Diffusion XL, используя при этом меньше памяти. Это также позволило сократить затраты на обучение: для Würstchen v1 требуется всего 9,000 512 часов графического процессора для обучения при разрешении 512×150,000 по сравнению со XNUMX XNUMX часов графического процессора, затраченных на Stable Diffusion 1.4. Такое 16-кратное снижение затрат не только принесет пользу исследователям, проводящим новые эксперименты, но и откроет возможности для обучения таких моделей большему количеству организаций. Würstchen v2 использовал 24,602 6 часа графического процессора, что делает его в 1.4 раз дешевле, чем SD512, который обучался только при разрешении 512×XNUMX.
Вюрстхен V2 - это диффузионная модель который работает в сильно сжатом скрытом пространстве изображений, на порядки сокращая вычислительные затраты на обучение и вывод. В нем используется новая конструкция, обеспечивающая 42-кратное пространственное сжатие, ранее невиданное достижение. Вюрстхен использует двухэтапное сжатие, этап A и этап B, которые декодируют сжатые изображения обратно в пиксельное пространство. Третья модель, этап C, изучается в сильно сжатом скрытом пространстве, требуя части вычислительных ресурсов, используемых для текущих наиболее эффективных моделей, но при этом обеспечивая более дешевый и быстрый вывод.
Würstchen V2 состоит из двух этапов диффузии:
- Этап А: Этот этап включает в себя обусловленное текстом распространение и может похвастаться ошеломляющим 1 миллиардом параметров. Ускорение здесь достигается за счет методов сверхвысокого сжатия. Примечательно, что вместо скрытого размера кода 128x128x4, как это видно в SDXL, Würstchen V2 изначально работает с разрешением 24x24x16. Это означает меньше пикселей, но больше каналов, что приводит к значительному увеличению скорости.
- Этап Б: Это диффузионная модель, оснащенная 600 миллионами параметров, отвечающих за распаковку изображения с 24×24 до разрешения 128×128.
Завершает процесс декодер с 20 миллионами параметров, который преобразует скрытый код в визуализированное изображение.
Практическое преимущество, которое сразу же бросается в глаза, — это замечательная скорость Würstchen V2. Он работает со скоростью, которая в 2–2.5 раза выше, чем SDXL, что является заметным достижением в области Генерация изображений ИИ.
Как и в случае с любой технологической инновацией, здесь могут быть компромиссы. Что касается качества изображения, некоторые эксперты предполагают небольшую потерю, хотя еще предстоит всестороннее и честное сравнение, чтобы предоставить конкретные доказательства.
Ниже приведены сгенерированные примеры преобразования текста в изображение:
Читайте другие связанные темы:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.