Uutisraportti Elektroniikka
Syyskuu 19, 2023

Würstchen V2 -malli voittaa Stable Diffusion XL vaikuttavalla nopeudella korkearesoluutioisten kuvien luomiseen

Äskettäinen twiitti artikkelin "Würstchen" (saksaksi "makkara") kirjoittaja on kiinnittänyt sekä harrastajien että asiantuntijoiden huomion. Twiitissä jaettiin kiehtovat tulokset kuvien luomisesta uudella Würstchen V2 -mallilla.

Würstchen V2 -malli voittaa Stable Diffusion XL vaikuttavalla nopeudella korkearesoluutioisten kuvien luomiseen
liittyvä: Midjourney 5.2 ja Stable Diffusion SDXL 0.9 -päivitykset luovaan tekstistä kuvaksi luomiseen

Würstchen on nopea ja tehokas luoden kuvia nopeammin kuin mallit Stable Diffusion XL, mutta käyttää vähemmän muistia. Se on myös alentanut koulutuskustannuksia, sillä Würstchen v1 vaatii vain 9,000 512 GPU-tuntia koulutusta 512 × 150,000 resoluutiolla verrattuna XNUMX XNUMX GPU-tuntiin. Stable Diffusion 1.4. Tämä 16-kertainen kustannusten aleneminen ei hyödytä vain uusia kokeita tekeviä tutkijoita, vaan myös avaa oven useammille organisaatioille kouluttaa tällaisia ​​malleja. Würstchen v2 käytti 24,602 6 GPU-tuntia, mikä teki siitä 1.4 kertaa halvemman kuin SD512, joka oli vain koulutettu 512 × XNUMX:lla.

Yksi erottuva ominaisuus, joka kiinnitti välittömästi tekoälyyhteisön huomion, on Würstchen V2:n vaikuttava nopeus. Kirjoittajan mukaan neljän 1024×2048 kuvan luominen tällä mallilla kestää vain 7 sekuntia. Tämän näkökulmasta katsottuna SDXL-malli vaatisi suhteellisen hitaita 40 sekuntia saman tehtävän saavuttamiseksi.

Aiemmin esitelty Würstchen V1 jakaa perustansa SDXL:n kanssa latenttina Diffuusiomalli mutta sisältää nopeamman Unet-arkkitehtuurin. Kun yhteisö odottaa innokkaasti lisätietoja Würstchen V2:n arkkitehtuurista, jo pelkästään lisääntynyt nopeus merkitsee sitä huomionarvoisena kehityksenä.

Würstchen V2 on a diffuusio malli joka toimii erittäin pakatussa piilevässä kuvatilassa, mikä vähentää koulutuksen ja päätelmien laskennallisia kustannuksia suuruusluokkaa. Se käyttää uutta suunnittelua, joka saavuttaa 42x spatiaalisen pakkauksen, jota ei ole aiemmin nähty. Würstchen käyttää kaksivaiheista pakkausta, Stage A ja Stage B, jotka purkaa pakatut kuvat takaisin pikselitilaan. Kolmas malli, vaihe C, opitaan erittäin pakatuissa piilevässä tilassa, mikä vaatii murto-osia nykyisissä huippusuorituskykyisissä malleissa käytetystä laskennasta samalla, kun se mahdollistaa halvemman ja nopeamman päättelyn.

Würstchen V2 sisältää kaksi diffuusiovaihetta:

  • Vaihe A: Tämä vaihe sisältää tekstin ehdollisen diffuusion, ja siinä on huikeat 1 miljardi parametria. Tässä kiihtyvyys saavutetaan erittäin korkealla puristustekniikalla. On huomattava, että piilotetun koodin koon 128x128x4 sijaan, kuten SDXL:ssä näkyy, Würstchen V2 toimii aluksi 24x24x16 resoluutiolla. Tämä tarkoittaa vähemmän pikseleitä, mutta enemmän kanavia, mikä lisää merkittävästi nopeutta.
  • Vaihe B: Tämä on diffuusiomalli, joka on varustettu 600 miljoonalla parametrilla ja vastaa kuvan purkamisesta 24 × 24 -resoluutiolla 128 × 128.

Prosessin suorittaa loppuun 20 miljoonan parametrin dekooderi, joka muuntaa piilotetun koodin renderoiduksi kuvaksi.

Käytännön etu, joka erottuu välittömästi, on Würstchen V2:n huomattava nopeus. Se toimii nopeudella, joka on 2-2.5 kertaa nopeampi kuin SDXL, mikä on huomattava edistysaskel AI-kuvan luominen.

Kuten minkä tahansa teknologisen innovaation kanssa, kompromisseja voi olla. Kuvanlaadun osalta jotkut asiantuntijat ehdottavat pientä menetystä, vaikka kattavaa ja rehellistä vertailua odotetaan vielä konkreettisten todisteiden saamiseksi.

Alla on esimerkkejä luoduista tekstistä kuvaksi:

Lue lisää aiheeseen liittyvistä aiheista:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Donald Trumpin siirtyminen kryptoon: vastustajasta puolestapuhujaksi ja mitä se tarkoittaa Yhdysvaltain kryptovaluuttamarkkinoille
Bisnes markkinat Tarinoita ja arvosteluja Elektroniikka
Donald Trumpin siirtyminen kryptoon: vastustajasta puolestapuhujaksi ja mitä se tarkoittaa Yhdysvaltain kryptovaluuttamarkkinoille
Voi 10, 2024
Layer3 lanseeraa L3 Tokenin tänä kesänä ja osoittaa 51 % kokonaistarjonnasta yhteisölle
markkinat Uutisraportti Elektroniikka
Layer3 lanseeraa L3 Tokenin tänä kesänä ja osoittaa 51 % kokonaistarjonnasta yhteisölle
Voi 10, 2024
Edward Snowdenin viimeinen varoitus Bitcoin-kehittäjille: "Tee tietosuojasta protokollatason prioriteetti tai vaaranna sen menettäminen
markkinat Turvallisuus Wiki Tuotteemme Tarinoita ja arvosteluja Elektroniikka
Edward Snowdenin viimeinen varoitus Bitcoin-kehittäjille: "Tee tietosuojasta protokollatason prioriteetti tai vaaranna sen menettäminen
Voi 10, 2024
Optimismikäyttöinen Ethereum Layer 2 Network Mint julkaisee verkkonsa 15. toukokuuta
Uutisraportti Elektroniikka
Optimismikäyttöinen Ethereum Layer 2 Network Mint julkaisee verkkonsa 15. toukokuuta
Voi 10, 2024
CRYPTOMERIA LABS PTE. OY.