Новини Технологии
Септември 19, 2023

Моделът Würstchen V2 печели Stable Diffusion XL с впечатляваща скорост за генериране на изображения с висока разделителна способност

Скорошен туит от автора на статия, озаглавена „Würstchen“ (на немски „наденица“), привлече вниманието както на ентусиасти, така и на експерти. Туитът сподели интригуващите резултати от генерирането на изображения с помощта на новия модел Würstchen V2.

Моделът Würstchen V2 печели Stable Diffusion XL с впечатляваща скорост за генериране на изображения с висока разделителна способност
сроден: Midjourney 5.2 и Stable Diffusion SDXL 0.9 Актуализации за творческо генериране на текст към изображение

Würstchen е бърз и ефективен, генерирайки изображения по-бързо от други подобни модели Stable Diffusion XL, докато използва по-малко памет. Освен това има намалени разходи за обучение, като Würstchen v1 изисква само 9,000 512 GPU часа обучение при разделителна способност 512 × 150,000, в сравнение със XNUMX XNUMX GPU часа, изразходвани за Stable Diffusion 1.4. Това 16 пъти намаление на разходите не само облагодетелства изследователите, провеждащи нови експерименти, но също така отваря вратата за повече организации да обучават такива модели. Würstchen v2 използва 24,602 6 GPU часа, което го прави 1.4 пъти по-евтин от SD512, който беше обучен само на 512 × XNUMX.

Една забележителна характеристика, която веднага привлече вниманието на AI общността, е впечатляващата скорост на Würstchen V2. Според автора, генерирането на четири 1024 × 2048 изображения с този модел отнема само 7 секунди. За да поставим това в перспектива, моделът SDXL ще изисква сравнително бавни 40 секунди, за да постигне същата задача.

Würstchen V1, представен по-рано, споделя основата си с SDXL като Latent Дифузионен модел но включва по-бърза Unet архитектура. Тъй като общността с нетърпение очаква допълнителни подробности за архитектурата на Würstchen V2, подобрената скорост сама по себе си го маркира като забележително развитие.

Würstchen V2 е a дифузионен модел който работи в силно компресирано латентно пространство от изображения, намалявайки изчислителните разходи за обучение и изводи с порядъци. Той използва нов дизайн, който постига 42x пространствена компресия, постижение, невиждано досега. Würstchen използва двустепенна компресия, Етап A и Етап B, които декодират компресирани изображения обратно в пространството на пикселите. Третият модел, Етап C, се научава в силно компресираното латентно пространство, което изисква части от изчисленията, използвани за настоящите модели с най-висока производителност, като същевременно позволява по-евтино и по-бързо заключение.

Würstchen V2 се състои от два етапа на дифузия:

  • Етап А: Този етап включва обусловена от текст дифузия и може да се похвали със зашеметяващите 1 милиард параметъра. Ускорението тук се постига чрез техники за свръхвисока компресия. Трябва да се отбележи, че вместо размера на скрития код от 128x128x4, както се вижда в SDXL, Würstchen V2 първоначално работи с разделителна способност 24x24x16. Това означава по-малко пиксели, но повече канали, което води до значително увеличение на скоростта.
  • Етап B: Това е дифузионен модел, оборудван с 600 милиона параметъра, отговорни за декомпресирането на изображението от 24×24 до резолюция 128×128.

Завършването на процеса е декодер с 20 милиона параметъра, който трансформира скрития код в изобразено изображение.

Практическата полза, която веднага се откроява, е забележителната скорост на Würstchen V2. Той работи със скорост, която е 2-2.5 пъти по-бърза от SDXL, забележителен напредък в областта на AI генериране на изображения.

Както при всяка технологична иновация, може да има компромиси. По отношение на качеството на изображението някои експерти предполагат лека загуба, въпреки че все още се очаква цялостно и честно сравнение, за да се предоставят конкретни доказателства.

Примери за генериран текст към изображение са по-долу:

Прочетете още свързани теми:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Espresso Systems си сътрудничи с Polygon Labs за разработване на AggLayer за подобряване на оперативната съвместимост на Rollup
Бизнес Новини Технологии
Espresso Systems си сътрудничи с Polygon Labs за разработване на AggLayer за подобряване на оперативната съвместимост на Rollup
Май 9, 2024
Задвижван от ZKP инфраструктурен протокол ZKBase разкрива пътна карта, планира стартирането на Testnet през май
Новини Технологии
Задвижван от ZKP инфраструктурен протокол ZKBase разкрива пътна карта, планира стартирането на Testnet през май
Май 9, 2024
BLOCKCHANCE и CONF3RENCE се обединяват за най-големите в Германия Web3 Конференция в Дортмунд
Бизнес пазари Софтуер Истории и рецензии Технологии
BLOCKCHANCE и CONF3RENCE се обединяват за най-големите в Германия Web3 Конференция в Дортмунд
Май 9, 2024
NuLink стартира на Bybit Web3 IDO платформа. Фазата на абонамента продължава до 13 май
пазари Новини Технологии
NuLink стартира на Bybit Web3 IDO платформа. Фазата на абонамента продължава до 13 май
Май 9, 2024
CRYPTOMERIA LABS PTE. LTD.