Nieuwsverslag Technologie
19 september 2023

Würstchen V2-model wint Stable Diffusion XL met indrukwekkende snelheid voor het genereren van afbeeldingen met hoge resolutie

Een recente tweet door de auteur van een artikel met de titel “Würstchen” (Duits voor “Worst”) heeft de aandacht getrokken van zowel liefhebbers als experts. De tweet deelde de intrigerende resultaten van het genereren van afbeeldingen met behulp van het nieuwe Würstchen V2-model.

Würstchen V2-model wint Stable Diffusion XL met indrukwekkende snelheid voor het genereren van afbeeldingen met hoge resolutie
Verwant: Midjourney 5.2 en Stable Diffusion SDXL 0.9-updates voor creatieve tekst-naar-beeldgeneratie

Würstchen is snel en efficiënt en genereert sneller afbeeldingen dan modellen zoals Stable Diffusion XL terwijl u minder geheugen gebruikt. Het heeft ook de trainingskosten verlaagd, waarbij Würstchen v1 slechts 9,000 GPU-uren aan training nodig heeft bij een resolutie van 512x512, vergeleken met 150,000 GPU-uren besteed aan Stable Diffusion 1.4. Deze 16x lagere kosten komen niet alleen ten goede aan onderzoekers die nieuwe experimenten uitvoeren, maar openen ook de deur voor meer organisaties om dergelijke modellen te trainen. Würstchen v2 gebruikte 24,602 GPU-uren, waardoor het 6x goedkoper was dan SD1.4, dat alleen was getraind op 512×512.

Een opvallend kenmerk dat meteen de aandacht trok van de AI-gemeenschap is de indrukwekkende snelheid van Würstchen V2. Volgens de auteur duurt het genereren van vier afbeeldingen van 1024×2048 met dit model slechts 7 seconden. Om dit in perspectief te plaatsen: het SDXL-model zou relatief trage 40 seconden nodig hebben om dezelfde taak te volbrengen.

Würstchen V1, eerder geïntroduceerd, deelt zijn basis met SDXL als Latent Diffusiemodel maar bevat een snellere Unet-architectuur. Terwijl de gemeenschap reikhalzend uitkijkt naar verdere details over de architectuur van Würstchen V2, is de verbeterde snelheid alleen al een opmerkelijke ontwikkeling.

Würstchen V2 is een diffusiemodel dat werkt in een sterk gecomprimeerde latente ruimte van beelden, waardoor de rekenkosten voor training en gevolgtrekking met ordes van grootte worden verminderd. Het maakt gebruik van een nieuw ontwerp dat een ruimtelijke compressie van 42x bereikt, een prestatie die nog niet eerder is gezien. Würstchen maakt gebruik van een tweetrapscompressie, fase A en fase B, die gecomprimeerde afbeeldingen terug naar pixelruimte decoderen. Een derde model, Stage C, wordt geleerd in de sterk gecomprimeerde latente ruimte, waarbij fracties van de rekenkracht nodig zijn die wordt gebruikt voor de huidige best presterende modellen, terwijl goedkopere en snellere gevolgtrekkingen mogelijk zijn.

Würstchen V2 bestaat uit twee diffusiefasen:

  • Fase A: Deze fase omvat tekstgeconditioneerde diffusie en beschikt over maar liefst 1 miljard parameters. De versnelling wordt hier bereikt door ultrahoge compressietechnieken. Met name werkt Würstchen V128 in plaats van de verborgen codegrootte van 128x4x2, zoals te zien in SDXL, aanvankelijk met een resolutie van 24x24x16. Dit betekent minder pixels maar meer kanalen, wat resulteert in een aanzienlijke snelheidsboost.
  • Fase B: Dit is een diffusiemodel uitgerust met 600 miljoen parameters, verantwoordelijk voor het decomprimeren van het beeld van 24×24 naar een resolutie van 128×128.

Het proces wordt voltooid door een decoder met 20 miljoen parameters die de verborgen code omzet in een gerenderde afbeelding.

Het praktische voordeel dat meteen opvalt is de opmerkelijke snelheid van Würstchen V2. Het werkt met een snelheid die 2 tot 2.5 keer sneller is dan SDXL, een opmerkelijke vooruitgang op het gebied van AI-beeldgeneratie.

Zoals bij elke technologische innovatie kunnen er compromissen zijn. Wat de beeldkwaliteit betreft, suggereren sommige experts een klein verlies, hoewel er nog steeds wordt gewacht op een uitgebreide en eerlijke vergelijking om concreet bewijs te leveren.

Hieronder vindt u gegenereerde tekst-naar-afbeelding-voorbeelden:

Lees meer gerelateerde onderwerpen:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
De verschuiving van Donald Trump naar crypto: van tegenstander naar pleitbezorger, en wat dit betekent voor de Amerikaanse cryptocurrency-markt
Business Markten Verhalen en recensies Technologie
De verschuiving van Donald Trump naar crypto: van tegenstander naar pleitbezorger, en wat dit betekent voor de Amerikaanse cryptocurrency-markt
10 mei 2024
Layer3 lanceert deze zomer het L3-token en wijst 51% van het totale aanbod toe aan de gemeenschap
Markten Nieuwsverslag Technologie
Layer3 lanceert deze zomer het L3-token en wijst 51% van het totale aanbod toe aan de gemeenschap
10 mei 2024
Edward Snowdens laatste waarschuwing aan Bitcoin-ontwikkelaars: “Maak van privacy een prioriteit op protocolniveau, anders loop je het risico deze te verliezen
Markten Security Wiki Software Verhalen en recensies Technologie
Edward Snowdens laatste waarschuwing aan Bitcoin-ontwikkelaars: “Maak van privacy een prioriteit op protocolniveau, anders loop je het risico deze te verliezen
10 mei 2024
Door optimisme aangedreven Ethereum Layer 2 Network Mint lanceert zijn mainnet op 15 mei
Nieuwsverslag Technologie
Door optimisme aangedreven Ethereum Layer 2 Network Mint lanceert zijn mainnet op 15 mei
10 mei 2024