Звіт про новини Технологія
Вересень 19, 2023

Модель Würstchen V2 перемагає Stable Diffusion XL із вражаючою швидкістю для створення зображень високої роздільної здатності

Недавній твіт автора статті під назвою «Würstchen» (німецька «ковбаса») привернула увагу як ентузіастів, так і експертів. У твіті поділилися інтригуючими результатами створення зображень за допомогою нової моделі Würstchen V2.

Модель Würstchen V2 перемагає Stable Diffusion XL із вражаючою швидкістю для створення зображень високої роздільної здатності
споріднений: Midjourney 5.2 і Stable Diffusion Оновлення SDXL 0.9 для творчого генерування тексту в зображення

Würstchen швидкий і ефективний, генеруючи зображення швидше, ніж моделі Stable Diffusion XL, використовуючи менше пам’яті. Він також зменшив витрати на навчання: Würstchen v1 вимагає лише 9,000 GPU-годин навчання з роздільною здатністю 512 × 512 у порівнянні зі 150,000 XNUMX GPU-годинами, витраченими на Stable Diffusion 1.4. Це 16-кратне зниження вартості не тільки приносить користь дослідникам, які проводять нові експерименти, але також відкриває двері для більшої кількості організацій для навчання таких моделей. Würstchen v2 використовував 24,602 6 години GPU, що робить його в 1.4 разів дешевшим, ніж SD512, який навчався лише на 512×XNUMX.

Однією з видатних особливостей, яка одразу привернула увагу спільноти ШІ, є вражаюча швидкість Würstchen V2. За словами автора, створення чотирьох зображень 1024×2048 за допомогою цієї моделі займає всього 7 секунд. Щоб подати це в перспективу, модель SDXL потребує порівняно млявих 40 секунд для виконання того ж завдання.

Würstchen V1, представлений раніше, має спільну основу з SDXL як Latent Дифузійна модель але містить швидшу архітектуру Unet. Оскільки спільнота з нетерпінням очікує подальших подробиць про архітектуру Würstchen V2, одна лише підвищена швидкість позначає її як варту уваги розробку.

Würstchen V2 - це a дифузійна модель який працює в сильно стиснутому прихованому просторі зображень, зменшуючи обчислювальні витрати на навчання та висновки на порядки. Він використовує нову конструкцію, яка досягає 42-кратного просторового стиснення, досягнення, якого раніше не бачили. Würstchen використовує двоетапне стиснення, стадію A та стадію B, які декодують стислі зображення назад у простір пікселів. Третя модель, Етап C, вивчається у сильно стисненому латентному просторі, що вимагає часток обчислень, які використовуються для поточних найефективніших моделей, і водночас дозволяє дешевше та швидше робити висновки.

Würstchen V2 складається з двох ступенів дифузії:

  • Етап А: Цей етап передбачає розповсюдження, обумовлене текстом, і може похвалитися приголомшливим 1 мільярдом параметрів. Прискорення тут досягається за допомогою техніки надвисокого стиснення. Примітно, що замість прихованого розміру коду 128x128x4, як видно в SDXL, Würstchen V2 спочатку працює з роздільною здатністю 24x24x16. Це означає менше пікселів, але більше каналів, що призводить до значного збільшення швидкості.
  • Етап B: Це дифузійна модель, оснащена 600 мільйонами параметрів, що відповідають за розпакування зображення з 24×24 до роздільної здатності 128×128.

Завершує процес декодер із 20 мільйонами параметрів, який перетворює прихований код у відтворене зображення.

Практична перевага, яка одразу впадає в очі, це надзвичайна швидкість Würstchen V2. Він працює зі швидкістю, яка в 2-2.5 рази швидша, ніж SDXL, що є значним прогресом у галузі Генерація зображень ШІ.

Як і з будь-якими технологічними інноваціями, тут можуть бути компроміси. З точки зору якості зображення, деякі експерти припускають незначну втрату, хоча все ще очікується всебічне та чесне порівняння, щоб надати конкретні докази.

Нижче наведено приклади створеного тексту в зображення:

Читайте більше пов’язаних тем:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Layer3 запустить токен L3 цього літа, виділяючи 51% від загального обсягу поставок для спільноти
ринки Звіт про новини Технологія
Layer3 запустить токен L3 цього літа, виділяючи 51% від загального обсягу поставок для спільноти
Травень 10, 2024
Останнє попередження Едварда Сноудена розробникам Bitcoin: «Зробіть конфіденційність пріоритетом на рівні протоколу або ризикуйте її втратити»
ринки Безпека Wiki Софтвер Розповіді та огляди Технологія
Останнє попередження Едварда Сноудена розробникам Bitcoin: «Зробіть конфіденційність пріоритетом на рівні протоколу або ризикуйте її втратити»
Травень 10, 2024
Мережевий монетний двір Ethereum рівня 2 на основі оптимізму запустить свою мережу 15 травня
Звіт про новини Технологія
Мережевий монетний двір Ethereum рівня 2 на основі оптимізму запустить свою мережу 15 травня
Травень 10, 2024
Найпопулярніші пропозиції цього тижня, великі інвестиції в AI, IT, Web3і Crypto (06-10.04)
Digest Business ринки Софтвер Технологія
Найпопулярніші пропозиції цього тижня, великі інвестиції в AI, IT, Web3і Crypto (06-10.04)
Травень 10, 2024
CRYPTOMERIA LABS PTE. LTD.