Звіт про новини Технологія
Вересень 19, 2023

Модель Würstchen V2 перемагає Stable Diffusion XL із вражаючою швидкістю для створення зображень високої роздільної здатності

Недавній твіт автора статті під назвою «Würstchen» (німецька «ковбаса») привернула увагу як ентузіастів, так і експертів. У твіті поділилися інтригуючими результатами створення зображень за допомогою нової моделі Würstchen V2.

Модель Würstchen V2 перемагає Stable Diffusion XL із вражаючою швидкістю для створення зображень високої роздільної здатності
споріднений: Midjourney 5.2 і Stable Diffusion Оновлення SDXL 0.9 для творчого генерування тексту в зображення

Würstchen швидкий і ефективний, генеруючи зображення швидше, ніж моделі Stable Diffusion XL, використовуючи менше пам’яті. Він також зменшив витрати на навчання: Würstchen v1 вимагає лише 9,000 GPU-годин навчання з роздільною здатністю 512 × 512 у порівнянні зі 150,000 XNUMX GPU-годинами, витраченими на Stable Diffusion 1.4. Це 16-кратне зниження вартості не тільки приносить користь дослідникам, які проводять нові експерименти, але також відкриває двері для більшої кількості організацій для навчання таких моделей. Würstchen v2 використовував 24,602 6 години GPU, що робить його в 1.4 разів дешевшим, ніж SD512, який навчався лише на 512×XNUMX.

Однією з видатних особливостей, яка одразу привернула увагу спільноти ШІ, є вражаюча швидкість Würstchen V2. За словами автора, створення чотирьох зображень 1024×2048 за допомогою цієї моделі займає всього 7 секунд. Щоб подати це в перспективу, модель SDXL потребує порівняно млявих 40 секунд для виконання того ж завдання.

Würstchen V1, представлений раніше, має спільну основу з SDXL як Latent Дифузійна модель але містить швидшу архітектуру Unet. Оскільки спільнота з нетерпінням очікує подальших подробиць про архітектуру Würstchen V2, одна лише підвищена швидкість позначає її як варту уваги розробку.

Würstchen V2 - це a дифузійна модель який працює в сильно стиснутому прихованому просторі зображень, зменшуючи обчислювальні витрати на навчання та висновки на порядки. Він використовує нову конструкцію, яка досягає 42-кратного просторового стиснення, досягнення, якого раніше не бачили. Würstchen використовує двоетапне стиснення, стадію A та стадію B, які декодують стислі зображення назад у простір пікселів. Третя модель, Етап C, вивчається у сильно стисненому латентному просторі, що вимагає часток обчислень, які використовуються для поточних найефективніших моделей, і водночас дозволяє дешевше та швидше робити висновки.

Würstchen V2 складається з двох ступенів дифузії:

  • Етап А: Цей етап передбачає розповсюдження, обумовлене текстом, і може похвалитися приголомшливим 1 мільярдом параметрів. Прискорення тут досягається за допомогою техніки надвисокого стиснення. Примітно, що замість прихованого розміру коду 128x128x4, як видно в SDXL, Würstchen V2 спочатку працює з роздільною здатністю 24x24x16. Це означає менше пікселів, але більше каналів, що призводить до значного збільшення швидкості.
  • Етап B: Це дифузійна модель, оснащена 600 мільйонами параметрів, що відповідають за розпакування зображення з 24×24 до роздільної здатності 128×128.

Завершує процес декодер із 20 мільйонами параметрів, який перетворює прихований код у відтворене зображення.

Практична перевага, яка одразу впадає в очі, це надзвичайна швидкість Würstchen V2. Він працює зі швидкістю, яка в 2-2.5 рази швидша, ніж SDXL, що є значним прогресом у галузі Генерація зображень ШІ.

Як і з будь-якими технологічними інноваціями, тут можуть бути компроміси. З точки зору якості зображення, деякі експерти припускають незначну втрату, хоча все ще очікується всебічне та чесне порівняння, щоб надати конкретні докази.

Нижче наведено приклади створеного тексту в зображення:

Читайте більше пов’язаних тем:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Від Ripple до The Big Green DAO: як криптовалютні проекти сприяють благодійності

Давайте розглянемо ініціативи, які використовують потенціал цифрових валют для благодійних цілей.

Дізнайтеся більше

AlphaFold 3, Med-Gemini та інші: як AI трансформує охорону здоров’я у 2024 році

ШІ проявляється різними способами в охороні здоров’я, від виявлення нових генетичних кореляцій до розширення можливостей роботизованих хірургічних систем...

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Інноваційні ідеї: основні доповіді та панелі, які сформували майбутнє блокчейну на конференції Hack Seasons
Думка Business Стиль життя ринки Софтвер Технологія
Інноваційні ідеї: основні доповіді та панелі, які сформували майбутнє блокчейну на конференції Hack Seasons
Липень 12, 2024
Mantle запускає AI Fest, заохочуючи учасників за виконання завдань від 1 мільйона MNT і фонду винагород проекту Ecosystem
Стиль життя Звіт про новини Технологія
Mantle запускає AI Fest, заохочуючи учасників за виконання завдань від 1 мільйона MNT і фонду винагород проекту Ecosystem
Липень 12, 2024
Віталік Бутерін про майбутнє Ethereum, масштабованість Crypto Community та інше
Думка ринки Софтвер Технологія
Віталік Бутерін про майбутнє Ethereum, масштабованість Crypto Community та інше
Липень 12, 2024
Solv Protocol запускає другу фазу депозитів SolvBTC.BBN зі збільшеною сумою ставок і оновленим планом стимулювання
ринки Звіт про новини Технологія
Solv Protocol запускає другу фазу депозитів SolvBTC.BBN зі збільшеною сумою ставок і оновленим планом стимулювання
Липень 12, 2024
CRYPTOMERIA LABS PTE. LTD.