Novice Tehnologija
September 19, 2023

Model Würstchen V2 zmaga Stable Diffusion XL z impresivno hitrostjo za ustvarjanje slik visoke ločljivosti

Nedavni tvit avtorja članka z naslovom »Würstchen« (nemško »klobasa«) je pritegnila pozornost tako navdušencev kot strokovnjakov. V tvitu so delili zanimive rezultate ustvarjanja slik z uporabo novega modela Würstchen V2.

Model Würstchen V2 zmaga Stable Diffusion XL z impresivno hitrostjo za ustvarjanje slik visoke ločljivosti
Podobni: Midjourney 5.2 in Stable Diffusion Posodobitve SDXL 0.9 za kreativno ustvarjanje besedila v sliko

Würstchen je hiter in učinkovit ter ustvarja slike hitreje kot podobni modeli Stable Diffusion XL ob porabi manj pomnilnika. Prav tako ima znižane stroške usposabljanja, saj Würstchen v1 zahteva samo 9,000 ur GPU usposabljanja pri ločljivosti 512×512 v primerjavi s 150,000 urami GPU, porabljenih za Stable Diffusion 1.4. To 16-kratno znižanje stroškov ne koristi le raziskovalcem, ki izvajajo nove poskuse, ampak tudi odpira vrata več organizacijam za usposabljanje takšnih modelov. Würstchen v2 je porabil 24,602 ur GPU, zaradi česar je bil 6x cenejši od SD1.4, ki je bil treniran samo pri 512×512.

Ena izjemna funkcija, ki je takoj padla v oči skupnosti AI, je impresivna hitrost Würstchen V2. Po besedah ​​avtorja ustvarjanje štirih slik 1024 × 2048 s tem modelom traja le 7 sekund. Če pogledamo to v perspektivo, bi model SDXL potreboval sorazmerno počasnih 40 sekund za doseganje iste naloge.

Würstchen V1, ki je bil predstavljen prej, si deli temelj s SDXL kot Latent Difuzijski model vendar vključuje hitrejšo arhitekturo Unet. Ker skupnost nestrpno pričakuje nadaljnje podrobnosti o arhitekturi Würstchen V2, jo že izboljšana hitrost označuje kot omembe vreden razvoj.

Würstchen V2 je a difuzijski model ki deluje v zelo stisnjenem latentnem prostoru slik, kar zmanjša računske stroške za usposabljanje in sklepanje za velikostne rede. Uporablja novo zasnovo, ki dosega 42-kratno prostorsko stiskanje, podvig, ki ga še niste videli. Würstchen uporablja dvostopenjsko stiskanje, stopnjo A in stopnjo B, ki dekodira stisnjene slike nazaj v prostor slikovnih pik. Tretji model, stopnja C, se nauči v zelo stisnjenem latentnem prostoru, ki zahteva delčke računanja, uporabljenega za trenutno najzmogljivejše modele, hkrati pa omogoča cenejše in hitrejše sklepanje.

Würstchen V2 obsega dve stopnji difuzije:

  • Stopnja A: Ta stopnja vključuje besedilno pogojeno razširjanje in se ponaša z osupljivo milijardo parametrov. Pospešek tukaj je dosežen s tehnikami ultra visoke kompresije. Namesto velikosti skrite kode 1x128x128, kot jo vidimo v SDXL, Würstchen V4 na začetku deluje pri ločljivosti 2x24x24. To pomeni manj slikovnih pik, a več kanalov, kar ima za posledico znatno povečanje hitrosti.
  • Stopnja B: To je difuzijski model, opremljen s 600 milijoni parametrov, ki so odgovorni za dekompresijo slike iz 24×24 na ločljivost 128×128.

Postopek zaključi dekoder z 20 milijoni parametrov, ki pretvori skrito kodo v upodobljeno sliko.

Praktična prednost, ki takoj izstopa, je izjemna hitrost Würstchen V2. Deluje s hitrostjo, ki je 2–2.5-krat hitrejša od SDXL, kar je omembe vreden napredek na področju Generiranje slik AI.

Kot pri vsaki tehnološki inovaciji lahko obstajajo kompromisi. Kar zadeva kakovost slike, nekateri strokovnjaki predlagajo rahlo izgubo, čeprav še vedno čakamo na celovito in pošteno primerjavo, ki bo zagotovila konkretne dokaze.

Primeri ustvarjenega besedila v sliko so spodaj:

Preberite več povezanih tem:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Prehod Donalda Trumpa na kripto: od nasprotnika do zagovornika in kaj to pomeni za ameriški trg kriptovalut
ŽELITE POSTATI PARTNER Prisotnost Zgodbe in ocene Tehnologija
Prehod Donalda Trumpa na kripto: od nasprotnika do zagovornika in kaj to pomeni za ameriški trg kriptovalut
Maj 10, 2024
Layer3 bo lansiral žeton L3 to poletje in 51 % celotne ponudbe namenil skupnosti
Prisotnost Novice Tehnologija
Layer3 bo lansiral žeton L3 to poletje in 51 % celotne ponudbe namenil skupnosti
Maj 10, 2024
Zadnje opozorilo Edwarda Snowdna razvijalcem bitcoinov: »Naj bo zasebnost prednostna naloga na ravni protokola ali pa tvegajte, da jo izgubite
Prisotnost Varnost Wiki Software Zgodbe in ocene Tehnologija
Zadnje opozorilo Edwarda Snowdna razvijalcem bitcoinov: »Naj bo zasebnost prednostna naloga na ravni protokola ali pa tvegajte, da jo izgubite
Maj 10, 2024
Omrežna kovnica Ethereum Layer 2, ki jo poganja optimizem, bo svojo glavno mrežo predstavila 15. maja
Novice Tehnologija
Omrežna kovnica Ethereum Layer 2, ki jo poganja optimizem, bo svojo glavno mrežo predstavila 15. maja
Maj 10, 2024
CRYPTOMERIA LABS PTE. LTD.