Würstchen V2-model wint Stable Diffusion XL met indrukwekkende snelheid voor het genereren van afbeeldingen met hoge resolutie
Een recente tweet door de auteur van een artikel met de titel “Würstchen” (Duits voor “Worst”) heeft de aandacht getrokken van zowel liefhebbers als experts. De tweet deelde de intrigerende resultaten van het genereren van afbeeldingen met behulp van het nieuwe Würstchen V2-model.
Verwant: Midjourney 5.2 en Stable Diffusion SDXL 0.9-updates voor creatieve tekst-naar-beeldgeneratie |
Würstchen is snel en efficiënt en genereert sneller afbeeldingen dan modellen zoals Stable Diffusion XL terwijl u minder geheugen gebruikt. Het heeft ook de trainingskosten verlaagd, waarbij Würstchen v1 slechts 9,000 GPU-uren aan training nodig heeft bij een resolutie van 512x512, vergeleken met 150,000 GPU-uren besteed aan Stable Diffusion 1.4. Deze 16x lagere kosten komen niet alleen ten goede aan onderzoekers die nieuwe experimenten uitvoeren, maar openen ook de deur voor meer organisaties om dergelijke modellen te trainen. Würstchen v2 gebruikte 24,602 GPU-uren, waardoor het 6x goedkoper was dan SD1.4, dat alleen was getraind op 512×512.
Würstchen V2 is een diffusiemodel dat werkt in een sterk gecomprimeerde latente ruimte van beelden, waardoor de rekenkosten voor training en gevolgtrekking met ordes van grootte worden verminderd. Het maakt gebruik van een nieuw ontwerp dat een ruimtelijke compressie van 42x bereikt, een prestatie die nog niet eerder is gezien. Würstchen maakt gebruik van een tweetrapscompressie, fase A en fase B, die gecomprimeerde afbeeldingen terug naar pixelruimte decoderen. Een derde model, Stage C, wordt geleerd in de sterk gecomprimeerde latente ruimte, waarbij fracties van de rekenkracht nodig zijn die wordt gebruikt voor de huidige best presterende modellen, terwijl goedkopere en snellere gevolgtrekkingen mogelijk zijn.
Würstchen V2 bestaat uit twee diffusiefasen:
- Fase A: Deze fase omvat tekstgeconditioneerde diffusie en beschikt over maar liefst 1 miljard parameters. De versnelling wordt hier bereikt door ultrahoge compressietechnieken. Met name werkt Würstchen V128 in plaats van de verborgen codegrootte van 128x4x2, zoals te zien in SDXL, aanvankelijk met een resolutie van 24x24x16. Dit betekent minder pixels maar meer kanalen, wat resulteert in een aanzienlijke snelheidsboost.
- Fase B: Dit is een diffusiemodel uitgerust met 600 miljoen parameters, verantwoordelijk voor het decomprimeren van het beeld van 24×24 naar een resolutie van 128×128.
Het proces wordt voltooid door een decoder met 20 miljoen parameters die de verborgen code omzet in een gerenderde afbeelding.
Het praktische voordeel dat meteen opvalt is de opmerkelijke snelheid van Würstchen V2. Het werkt met een snelheid die 2 tot 2.5 keer sneller is dan SDXL, een opmerkelijke vooruitgang op het gebied van AI-beeldgeneratie.
Zoals bij elke technologische innovatie kunnen er compromissen zijn. Wat de beeldkwaliteit betreft, suggereren sommige experts een klein verlies, hoewel er nog steeds wordt gewacht op een uitgebreide en eerlijke vergelijking om concreet bewijs te leveren.
Hieronder vindt u gegenereerde tekst-naar-afbeelding-voorbeelden:
Lees meer gerelateerde onderwerpen:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.