Новински извештај технологија
Септембар 19, 2023

Вурстцхен В2 модел осваја Stable Diffusion КСЛ са импресивном брзином за генерисање слика високе резолуције

Недавни твит аутора чланка под насловом „Вурстцхен“ (на немачком за „кобасицу“) привукао је пажњу и ентузијаста и стручњака. Твит је поделио интригантне резултате генерисања слика коришћењем новог модела Вурстцхен В2.

Вурстцхен В2 модел осваја Stable Diffusion КСЛ са импресивном брзином за генерисање слика високе резолуције
Напомена: Midjourney КСНУМКС и Stable Diffusion СДКСЛ 0.9 ажурирања за креативно генерисање текста у слику

Вурстцхен је брз и ефикасан, ствара слике брже од сличних модела Stable Diffusion КСЛ уз коришћење мање меморије. Такође има смањене трошкове обуке, при чему Вурстцхен в1 захтева само 9,000 ГПУ сати обуке при резолуцији 512×512, у поређењу са 150,000 ГПУ сати потрошених на Stable Diffusion 1.4. Ово смањење трошкова од 16 пута не само да користи истраживачима који спроводе нове експерименте, већ и отвара врата за више организација за обуку таквих модела. Вурстцхен в2 је користио 24,602 ГПУ сата, што га чини 6к јефтинијим од СД1.4, који је био обучен само на 512×512.

Једна изузетна карактеристика која је одмах привукла пажњу АИ заједници је импресивна брзина Вурстцхен В2. Према речима аутора, генерисање четири слике величине 1024×2048 помоћу овог модела траје само 7 секунди. Да се ​​ово стави у перспективу, СДКСЛ моделу би било потребно релативно спорих 40 секунди да постигне исти задатак.

Вурстцхен В1, који је раније представљен, дели своју основу са СДКСЛ-ом као латентним Модел дифузије али укључује бржу Унет архитектуру. Пошто заједница нестрпљиво очекује даље детаље о архитектури Вурстцхен В2, сама побољшана брзина означава га као развој вредан пажње.

Вурстцхен В2 је а модел дифузије који ради у високо компримованом латентном простору слика, смањујући рачунске трошкове за обуку и закључивање за редове величине. Користи нови дизајн који постиже просторну компресију од 42к, што раније није виђено. Вурстцхен користи двостепену компресију, Стаге А и Стаге Б, који декодирају компресоване слике назад у простор пиксела. Трећи модел, Стаге Ц, се учи у високо компримованом латентном простору, захтевајући делове рачунара који се користе за тренутне моделе са најбољим перформансама, док омогућава јефтиније и брже закључивање.

Вурстцхен В2 се састоји од два степена дифузије:

  • Фаза А: Ова фаза укључује дифузију условљену текстом и може се похвалити запањујућом милијардом параметара. Убрзање се овде постиже техникама ултра-високе компресије. Приметно је да уместо скривене величине кода од 1к128к128, као што се види у СДКСЛ, Вурстцхен В4 у почетку ради у резолуцији 2к24к24. То значи мање пиксела, али више канала, што резултира значајним повећањем брзине.
  • Фаза Б: Ово је дифузиони модел опремљен са 600 милиона параметара, одговорних за декомпресију слике са 24×24 на резолуцију од 128×128.

Завршетак процеса је декодер са 20 милиона параметара који претвара скривени код у приказану слику.

Практична предност која се одмах истиче је изузетна брзина Вурстцхен В2. Ради брзином која је 2-2.5 пута бржа од СДКСЛ, што је значајан напредак у области АИ генерисање слике.

Као и код сваке технолошке иновације, може доћи до компромиса. Што се тиче квалитета слике, неки стручњаци сугеришу благи губитак, иако се још увек чека свеобухватно и искрено поређење како би се пружили конкретни докази.

У наставку су приказани генерисани примери текста у слику:

Прочитајте више сродних тема:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Институционални апетит расте према Битцоин ЕТФ-овима усред волатилности

Откривања путем 13Ф поднесака откривају значајне институционалне инвеститоре који се баве Битцоин ЕТФ-овима, наглашавајући све веће прихватање ...

Знате више

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Лаиер3 ће лансирати Л3 токен овог лета, алоцирајући 51% укупне понуде заједници
tržišta Новински извештај технологија
Лаиер3 ће лансирати Л3 токен овог лета, алоцирајући 51% укупне понуде заједници
Може 10, 2024
Последње упозорење Едварда Сноудена за Битцоин програмере: „Учините приватност приоритетом на нивоу протокола или ризикујте да је изгубите
tržišta безбедност Wiki софтвер Приче и критике технологија
Последње упозорење Едварда Сноудена за Битцоин програмере: „Учините приватност приоритетом на нивоу протокола или ризикујте да је изгубите
Може 10, 2024
Етхереум Лаиер 2 Нетворк Минт покреће своју мрежу 15. маја
Новински извештај технологија
Етхереум Лаиер 2 Нетворк Минт покреће своју мрежу 15. маја
Може 10, 2024
Најбоље понуде ове недеље, велике инвестиције у вештачку интелигенцију, ИТ, Web3, и Црипто (06-10.04)
Дигест Posao tržišta софтвер технологија
Најбоље понуде ове недеље, велике инвестиције у вештачку интелигенцију, ИТ, Web3, и Црипто (06-10.04)
Може 10, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.