Model Würstchen V2 osvaja Stable Diffusion XL s impresivnom brzinom za generiranje slika visoke razlučivosti
Nedavni tweet autora članka pod naslovom “Würstchen” (njemački “kobasica”) zaokupila je pozornost kako entuzijasta tako i stručnjaka. Tweet je podijelio intrigantne rezultate generiranja slika pomoću novog modela Würstchen V2.
povezan: Midjourney 5.2 i Stable Diffusion SDXL 0.9 ažuriranja za kreativno generiranje teksta u sliku |
Würstchen je brz i učinkovit, stvara slike brže od sličnih modela Stable Diffusion XL dok koristi manje memorije. Također ima smanjene troškove obuke, s Würstchen v1 koji zahtijeva samo 9,000 GPU sati obuke pri 512×512 rezolucijama, u usporedbi sa 150,000 GPU sati utrošenih na Stable Diffusion 1.4. Ovo 16x smanjenje troškova ne samo da koristi istraživačima koji provode nove pokuse, već također otvara vrata većem broju organizacija za obuku takvih modela. Würstchen v2 je koristio 24,602 GPU sata, što ga čini 6x jeftinijim od SD1.4, koji je treniran samo na 512×512.
Würstchen V2 je a difuzijski model koji radi u visoko komprimiranom latentnom prostoru slika, smanjujući računalne troškove za obuku i zaključivanje za redove veličine. Koristi novi dizajn koji postiže prostornu kompresiju od 42x, što je dosad neviđeno. Würstchen koristi kompresiju u dva stupnja, stupanj A i stupanj B, koji dekodiraju komprimirane slike natrag u prostor piksela. Treći model, Stage C, uči se u visoko komprimiranom latentnom prostoru, zahtijevajući dijelove računanja koji se koriste za trenutne modele s najboljim učinkom, a istovremeno omogućuje jeftinije i brže zaključivanje.
Würstchen V2 sastoji se od dva stupnja difuzije:
- Faza A: Ova faza uključuje tekstualno uvjetovanu difuziju i može se pohvaliti sa nevjerojatnih milijardu parametara. Ubrzanje se ovdje postiže tehnikama ultra-visoke kompresije. Naime, umjesto veličine skrivenog koda od 1x128x128, kao što se vidi u SDXL-u, Würstchen V4 u početku radi na razlučivosti od 2x24x24. To znači manje piksela, ali više kanala, što rezultira značajnim povećanjem brzine.
- Faza B: Ovo je difuzijski model opremljen sa 600 milijuna parametara, odgovornih za dekompresiju slike od 24×24 do rezolucije 128×128.
Proces dovršava dekoder s 20 milijuna parametara koji pretvara skriveni kod u renderiranu sliku.
Praktična prednost koja se odmah ističe je izvanredna brzina Würstchen V2. Radi brzinom koja je 2-2.5 puta brža od SDXL-a, što je značajan napredak u polju AI generiranje slike.
Kao i kod svake tehnološke inovacije, mogu postojati kompromisi. Što se tiče kvalitete slike, neki stručnjaci sugeriraju blagi gubitak, iako se još uvijek čeka sveobuhvatna i iskrena usporedba kako bi se pružili konkretni dokazi.
Primjeri generiranog teksta u sliku su ispod:
Pročitajte još povezanih tema:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.