Ziņojums Tehnoloģija
Septembris 19, 2023

Würstchen V2 modelis uzvar Stable Diffusion XL ar iespaidīgu ātrumu augstas izšķirtspējas attēlu ģenerēšanai

Nesenais tvīts raksta ar nosaukumu “Würstchen” (vācu valodā “desa”) autors ir piesaistījis gan entuziastu, gan ekspertu uzmanību. Tvītā tika kopīgoti intriģējošie attēlu ģenerēšanas rezultāti, izmantojot jauno Würstchen V2 modeli.

Würstchen V2 modelis uzvar Stable Diffusion XL ar iespaidīgu ātrumu augstas izšķirtspējas attēlu ģenerēšanai
saistīts: Midjourney 5.2 un Stable Diffusion SDXL 0.9 jauninājumi radošai teksta pārveidošanai attēlā

Würstchen ir ātra un efektīva, ģenerējot attēlus ātrāk nekā modeļi, piemēram Stable Diffusion XL, vienlaikus izmantojot mazāk atmiņas. Tam ir arī samazinātas apmācības izmaksas, jo Würstchen v1 prasa tikai 9,000 GPU apmācības stundu ar 512 × 512 izšķirtspēju, salīdzinot ar 150,000 XNUMX GPU stundām Stable Diffusion 1.4. Šis 16x izmaksu samazinājums ne tikai dod labumu pētniekiem, kuri veic jaunus eksperimentus, bet arī paver iespējas vairākām organizācijām apmācīt šādus modeļus. Würstchen v2 izmantoja 24,602 6 GPU stundas, padarot to 1.4x lētāku nekā SD512, kas tika apmācīts tikai 512 × XNUMX.

Viena no izcilajām iezīmēm, kas nekavējoties pievērsa AI kopienas uzmanību, ir Würstchen V2 iespaidīgais ātrums. Pēc autora domām, četru 1024 × 2048 attēlu ģenerēšana, izmantojot šo modeli, aizņem tikai 7 sekundes. Lai to aplūkotu perspektīvā, SDXL modelim būtu vajadzīgas salīdzinoši gausas 40 sekundes, lai sasniegtu to pašu uzdevumu.

Würstchen V1, kas tika ieviests iepriekš, koplieto savu pamatu ar SDXL kā latentu Difūzijas modelis bet ietver ātrāku Unet arhitektūru. Tā kā sabiedrība ar nepacietību gaida papildu informāciju par Würstchen V2 arhitektūru, palielinātais ātrums vien iezīmē to kā vērā ņemamu attīstību.

Würstchen V2 ir a difūzijas modelis kas darbojas ļoti saspiestā latentā attēlu telpā, samazinot apmācības un secinājumu skaitļošanas izmaksas par lielumu kārtām. Tas izmanto jaunu dizainu, kas nodrošina 42x telpisko saspiešanu, kas iepriekš nav redzēts. Würstchen izmanto divpakāpju saspiešanu, A un B stadiju, kas saspiestos attēlus atšifrē atpakaļ pikseļu telpā. Trešais modelis, C stadija, tiek apgūts ļoti saspiestā latentā telpā, un tam ir nepieciešamas skaitļošanas daļas, kas tiek izmantotas pašreizējiem vislabākajiem modeļiem, vienlaikus ļaujot izdarīt lētākus un ātrākus secinājumus.

Würstchen V2 sastāv no diviem difūzijas posmiem:

  • A posms: Šis posms ietver teksta kondicionētu difūziju un lepojas ar satriecošu 1 miljardu parametru. Paātrinājums šeit tiek panākts, izmantojot īpaši augstas kompresijas metodes. Jāatzīmē, ka slēptā koda izmēra 128x128x4 vietā, kā redzams SDXL, Würstchen V2 sākotnēji darbojas ar 24x24x16 izšķirtspēju. Tas nozīmē mazāk pikseļu, bet vairāk kanālu, kā rezultātā ievērojami palielinās ātrums.
  • B posms: Šis ir difūzijas modelis, kas aprīkots ar 600 miljoniem parametru, kas atbild par attēla dekompresēšanu no 24 × 24 līdz 128 × 128 izšķirtspējai.

Procesu pabeidz dekodētājs ar 20 miljoniem parametru, kas pārveido slēpto kodu renderētā attēlā.

Praktiskais ieguvums, kas uzreiz izceļas, ir Würstchen V2 ievērojamais ātrums. Tas darbojas ar ātrumu, kas ir 2–2.5 reizes ātrāks nekā SDXL, kas ir ievērojams sasniegums AI attēlu ģenerēšana.

Tāpat kā ar jebkuru tehnoloģisku jauninājumu, var būt kompromisi. Runājot par attēla kvalitāti, daži eksperti norāda uz nelielu zaudējumu, lai gan joprojām tiek gaidīts visaptverošs un godīgs salīdzinājums, lai sniegtu konkrētus pierādījumus.

Tālāk ir sniegti ģenerēti teksta pārveides piemēri.

Lasiet vairāk saistītās tēmas:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Nepastāvības apstākļos institucionālā apetīte pieaug pret Bitcoin ETF

Informācijas atklāšana, izmantojot 13F pieteikumus, atklāj ievērojamus institucionālos investorus, kas iesaistās Bitcoin ETF, uzsverot pieaugošo pieņemšanu ...

Uzziniet vairāk

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Donalda Trampa pāreja uz kriptovalūtu: no pretinieka par aizstāvi un ko tas nozīmē ASV kriptovalūtu tirgum
bizness Markets Stāsti un atsauksmes Tehnoloģija
Donalda Trampa pāreja uz kriptovalūtu: no pretinieka par aizstāvi un ko tas nozīmē ASV kriptovalūtu tirgum
10. gada 2024. maijs
Layer3, lai šovasar laistu klajā L3 marķieri, piešķirot 51% no kopējā piedāvājuma kopienai
Markets Ziņojums Tehnoloģija
Layer3, lai šovasar laistu klajā L3 marķieri, piešķirot 51% no kopējā piedāvājuma kopienai
10. gada 2024. maijs
Edvarda Snoudena pēdējais brīdinājums Bitcoin izstrādātājiem: “Padariet privātumu par protokola līmeņa prioritāti vai riskējiet to zaudēt
Markets Drošība Wiki programmatūra Stāsti un atsauksmes Tehnoloģija
Edvarda Snoudena pēdējais brīdinājums Bitcoin izstrādātājiem: “Padariet privātumu par protokola līmeņa prioritāti vai riskējiet to zaudēt
10. gada 2024. maijs
Ar optimismu darbināms Ethereum Layer 2 Network Mint, lai palaistu savu galveno tīklu 15. maijā
Ziņojums Tehnoloģija
Ar optimismu darbināms Ethereum Layer 2 Network Mint, lai palaistu savu galveno tīklu 15. maijā
10. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.