Würstchen V2 modelis uzvar Stable Diffusion XL ar iespaidīgu ātrumu augstas izšķirtspējas attēlu ģenerēšanai
Nesenais tvīts raksta ar nosaukumu “Würstchen” (vācu valodā “desa”) autors ir piesaistījis gan entuziastu, gan ekspertu uzmanību. Tvītā tika kopīgoti intriģējošie attēlu ģenerēšanas rezultāti, izmantojot jauno Würstchen V2 modeli.
saistīts: Midjourney 5.2 un Stable Diffusion SDXL 0.9 jauninājumi radošai teksta pārveidošanai attēlā |
Würstchen ir ātra un efektīva, ģenerējot attēlus ātrāk nekā modeļi, piemēram Stable Diffusion XL, vienlaikus izmantojot mazāk atmiņas. Tam ir arī samazinātas apmācības izmaksas, jo Würstchen v1 prasa tikai 9,000 GPU apmācības stundu ar 512 × 512 izšķirtspēju, salīdzinot ar 150,000 XNUMX GPU stundām Stable Diffusion 1.4. Šis 16x izmaksu samazinājums ne tikai dod labumu pētniekiem, kuri veic jaunus eksperimentus, bet arī paver iespējas vairākām organizācijām apmācīt šādus modeļus. Würstchen v2 izmantoja 24,602 6 GPU stundas, padarot to 1.4x lētāku nekā SD512, kas tika apmācīts tikai 512 × XNUMX.
Würstchen V2 ir a difūzijas modelis kas darbojas ļoti saspiestā latentā attēlu telpā, samazinot apmācības un secinājumu skaitļošanas izmaksas par lielumu kārtām. Tas izmanto jaunu dizainu, kas nodrošina 42x telpisko saspiešanu, kas iepriekš nav redzēts. Würstchen izmanto divpakāpju saspiešanu, A un B stadiju, kas saspiestos attēlus atšifrē atpakaļ pikseļu telpā. Trešais modelis, C stadija, tiek apgūts ļoti saspiestā latentā telpā, un tam ir nepieciešamas skaitļošanas daļas, kas tiek izmantotas pašreizējiem vislabākajiem modeļiem, vienlaikus ļaujot izdarīt lētākus un ātrākus secinājumus.
Würstchen V2 sastāv no diviem difūzijas posmiem:
- A posms: Šis posms ietver teksta kondicionētu difūziju un lepojas ar satriecošu 1 miljardu parametru. Paātrinājums šeit tiek panākts, izmantojot īpaši augstas kompresijas metodes. Jāatzīmē, ka slēptā koda izmēra 128x128x4 vietā, kā redzams SDXL, Würstchen V2 sākotnēji darbojas ar 24x24x16 izšķirtspēju. Tas nozīmē mazāk pikseļu, bet vairāk kanālu, kā rezultātā ievērojami palielinās ātrums.
- B posms: Šis ir difūzijas modelis, kas aprīkots ar 600 miljoniem parametru, kas atbild par attēla dekompresēšanu no 24 × 24 līdz 128 × 128 izšķirtspējai.
Procesu pabeidz dekodētājs ar 20 miljoniem parametru, kas pārveido slēpto kodu renderētā attēlā.
Praktiskais ieguvums, kas uzreiz izceļas, ir Würstchen V2 ievērojamais ātrums. Tas darbojas ar ātrumu, kas ir 2–2.5 reizes ātrāks nekā SDXL, kas ir ievērojams sasniegums AI attēlu ģenerēšana.
Tāpat kā ar jebkuru tehnoloģisku jauninājumu, var būt kompromisi. Runājot par attēla kvalitāti, daži eksperti norāda uz nelielu zaudējumu, lai gan joprojām tiek gaidīts visaptverošs un godīgs salīdzinājums, lai sniegtu konkrētus pierādījumus.
Tālāk ir sniegti ģenerēti teksta pārveides piemēri.
Lasiet vairāk saistītās tēmas:
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.
Vairāk rakstusDamirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.