Nyhetsrapport Teknologi
September 19, 2023

Würstchen V2-modell vinner över Stable Diffusion XL med imponerande hastighet för att generera högupplösta bilder

En nyligen tweet av författaren till en artikel med titeln "Würstchen" (tyska för "korv") har fångat uppmärksamheten hos både entusiaster och experter. Tweeten delade de spännande resultaten av att generera bilder med den nya Würstchen V2-modellen.

Würstchen V2-modell vinner över Stable Diffusion XL med imponerande hastighet för att generera högupplösta bilder
Relaterad: Midjourney 5.2 och Stable Diffusion SDXL 0.9-uppdateringar för kreativ text-till-bild-generering

Würstchen är snabb och effektiv, genererar bilder snabbare än modeller som Stable Diffusion XL samtidigt som du använder mindre minne. Det har också minskade utbildningskostnader, med Würstchen v1 som endast kräver 9,000 512 GPU-timmars träning vid 512×150,000 upplösningar, jämfört med XNUMX XNUMX GPU-timmar som spenderas på Stable Diffusion 1.4. Denna kostnadsminskning på 16 gånger gynnar inte bara forskare som genomför nya experiment utan öppnar också dörren för fler organisationer att utbilda sådana modeller. Würstchen v2 använde 24,602 6 GPU-timmar, vilket gör den 1.4 gånger billigare än SD512, som bara tränades på 512×XNUMX.

En utmärkande funktion som omedelbart fångade AI-gemenskapens ögon är den imponerande hastigheten hos Würstchen V2. Enligt författaren tar det bara 1024 sekunder att generera fyra 2048×7 bilder med den här modellen. För att sätta detta i perspektiv skulle SDXL-modellen kräva jämförelsevis tröga 40 sekunder för att uppnå samma uppgift.

Würstchen V1, som introducerades tidigare, delar sin grund med SDXL som en latent Diffusionsmodell men innehåller en snabbare Unet-arkitektur. Eftersom samhället ivrigt förväntar sig ytterligare detaljer om arkitekturen i Würstchen V2, markerar den ökade hastigheten enbart det som en anmärkningsvärd utveckling.

Würstchen V2 är en diffusionsmodell som fungerar i ett mycket komprimerat latent utrymme av bilder, vilket minskar beräkningskostnaderna för utbildning och slutsatser i storleksordningar. Den använder en ny design som uppnår en 42x rumslig komprimering, en bedrift som inte tidigare setts. Würstchen använder en tvåstegskomprimering, steg A och steg B, som avkodar komprimerade bilder tillbaka till pixelutrymme. En tredje modell, Steg C, lärs in i det mycket komprimerade latenta utrymmet, som kräver bråkdelar av den beräkning som används för nuvarande topppresterande modeller samtidigt som den tillåter billigare och snabbare slutledning.

Würstchen V2 består av två diffusionssteg:

  • Steg A: Detta steg involverar text-konditionerad diffusion och ståtar med häpnadsväckande 1 miljard parametrar. Accelerationen här uppnås genom ultrahög kompressionsteknik. Istället för den dolda kodstorleken på 128x128x4, som ses i SDXL, fungerar Würstchen V2 initialt med en upplösning på 24x24x16. Detta innebär färre pixlar men fler kanaler, vilket resulterar i en betydande hastighetsökning.
  • Steg B: Detta är en diffusionsmodell utrustad med 600 miljoner parametrar, ansvarig för att dekomprimera bilden från 24×24 till en upplösning på 128×128.

Slutför processen är en avkodare med 20 miljoner parametrar som omvandlar den dolda koden till en renderad bild.

Den praktiska fördelen som direkt sticker ut är den anmärkningsvärda hastigheten hos Würstchen V2. Den arbetar med en hastighet som är 2-2.5 gånger snabbare än SDXL, ett anmärkningsvärt framsteg inom området för Generering av AI-bilder.

Som med all teknisk innovation kan det finnas avvägningar. När det gäller bildkvalitet föreslår vissa experter en liten förlust, även om en omfattande och ärlig jämförelse fortfarande väntar på att ge konkreta bevis.

Exempel på genererade text-till-bild är nedan:

Läs mer relaterade ämnen:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Donald Trumps övergång till krypto: från motståndare till förespråkare och vad det betyder för den amerikanska kryptovalutamarknaden
Företag Marknader Berättelser och recensioner Teknologi
Donald Trumps övergång till krypto: från motståndare till förespråkare och vad det betyder för den amerikanska kryptovalutamarknaden
Maj 10, 2024
Layer3 lanserar L3-token i sommar och allokerar 51 % av det totala utbudet till gemenskapen
Marknader Nyhetsrapport Teknologi
Layer3 lanserar L3-token i sommar och allokerar 51 % av det totala utbudet till gemenskapen
Maj 10, 2024
Edward Snowdens sista varning till Bitcoin-utvecklare: "Gör sekretess till en prioritet på protokollnivå eller riskera att förlora den
Marknader Säkerhet Wiki Mjukvara Berättelser och recensioner Teknologi
Edward Snowdens sista varning till Bitcoin-utvecklare: "Gör sekretess till en prioritet på protokollnivå eller riskera att förlora den
Maj 10, 2024
Optimismdrivet Ethereum Layer 2 Network Mint lanserar sitt huvudnät den 15 maj
Nyhetsrapport Teknologi
Optimismdrivet Ethereum Layer 2 Network Mint lanserar sitt huvudnät den 15 maj
Maj 10, 2024