Модель Würstchen V2 перемагає Stable Diffusion XL із вражаючою швидкістю для створення зображень високої роздільної здатності
Недавній твіт автора статті під назвою «Würstchen» (німецька «ковбаса») привернула увагу як ентузіастів, так і експертів. У твіті поділилися інтригуючими результатами створення зображень за допомогою нової моделі Würstchen V2.
споріднений: Midjourney 5.2 і Stable Diffusion Оновлення SDXL 0.9 для творчого генерування тексту в зображення |
Würstchen швидкий і ефективний, генеруючи зображення швидше, ніж моделі Stable Diffusion XL, використовуючи менше пам’яті. Він також зменшив витрати на навчання: Würstchen v1 вимагає лише 9,000 GPU-годин навчання з роздільною здатністю 512 × 512 у порівнянні зі 150,000 XNUMX GPU-годинами, витраченими на Stable Diffusion 1.4. Це 16-кратне зниження вартості не тільки приносить користь дослідникам, які проводять нові експерименти, але також відкриває двері для більшої кількості організацій для навчання таких моделей. Würstchen v2 використовував 24,602 6 години GPU, що робить його в 1.4 разів дешевшим, ніж SD512, який навчався лише на 512×XNUMX.
Würstchen V2 - це a дифузійна модель який працює в сильно стиснутому прихованому просторі зображень, зменшуючи обчислювальні витрати на навчання та висновки на порядки. Він використовує нову конструкцію, яка досягає 42-кратного просторового стиснення, досягнення, якого раніше не бачили. Würstchen використовує двоетапне стиснення, стадію A та стадію B, які декодують стислі зображення назад у простір пікселів. Третя модель, Етап C, вивчається у сильно стисненому латентному просторі, що вимагає часток обчислень, які використовуються для поточних найефективніших моделей, і водночас дозволяє дешевше та швидше робити висновки.
Würstchen V2 складається з двох ступенів дифузії:
- Етап А: Цей етап передбачає розповсюдження, обумовлене текстом, і може похвалитися приголомшливим 1 мільярдом параметрів. Прискорення тут досягається за допомогою техніки надвисокого стиснення. Примітно, що замість прихованого розміру коду 128x128x4, як видно в SDXL, Würstchen V2 спочатку працює з роздільною здатністю 24x24x16. Це означає менше пікселів, але більше каналів, що призводить до значного збільшення швидкості.
- Етап B: Це дифузійна модель, оснащена 600 мільйонами параметрів, що відповідають за розпакування зображення з 24×24 до роздільної здатності 128×128.
Завершує процес декодер із 20 мільйонами параметрів, який перетворює прихований код у відтворене зображення.
Практична перевага, яка одразу впадає в очі, це надзвичайна швидкість Würstchen V2. Він працює зі швидкістю, яка в 2-2.5 рази швидша, ніж SDXL, що є значним прогресом у галузі Генерація зображень ШІ.
Як і з будь-якими технологічними інноваціями, тут можуть бути компроміси. З точки зору якості зображення, деякі експерти припускають незначну втрату, хоча все ще очікується всебічне та чесне порівняння, щоб надати конкретні докази.
Нижче наведено приклади створеного тексту в зображення:
Читайте більше пов’язаних тем:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.