Würstchen V2-model vinder Stable Diffusion XL med imponerende hastighed til generering af billeder i høj opløsning
Et nyligt tweet af forfatteren til en artikel med titlen "Würstchen" (tysk for "pølse") har fanget opmærksomheden hos både entusiaster og eksperter. Tweetet delte de spændende resultater af at generere billeder ved hjælp af den nye Würstchen V2-model.
Relaterede: Midjourney 5.2 og Stable Diffusion SDXL 0.9-opdateringer til kreativ tekst-til-billede-generering |
Würstchen er hurtig og effektiv og genererer billeder hurtigere end modeller kan lide Stable Diffusion XL, mens du bruger mindre hukommelse. Det har også reducerede træningsomkostninger, hvor Würstchen v1 kun kræver 9,000 GPU-timers træning ved 512×512 opløsninger sammenlignet med 150,000 GPU-timer brugt på Stable Diffusion 1.4. Denne 16x reduktion i omkostningerne gavner ikke kun forskere, der udfører nye eksperimenter, men åbner også døren for, at flere organisationer kan træne sådanne modeller. Würstchen v2 brugte 24,602 GPU-timer, hvilket gjorde den 6x billigere end SD1.4, som kun blev trænet til 512×512.
Würstchen V2 er en diffusionsmodel der fungerer i et stærkt komprimeret latent rum af billeder, hvilket reducerer beregningsomkostninger til træning og slutninger i størrelsesordener. Den anvender et nyt design, der opnår en 42x rumlig komprimering, en bedrift, der ikke tidligere er set. Würstchen anvender en to-trins komprimering, Stage A og Stage B, som afkoder komprimerede billeder tilbage til pixelrummet. En tredje model, Stage C, læres i det meget komprimerede latente rum, der kræver brøkdele af den beregning, der bruges til nuværende toppræsterende modeller, samtidig med at det tillader billigere og hurtigere slutninger.
Würstchen V2 består af to diffusionstrin:
- Fase A: Dette trin involverer tekstbetinget diffusion og kan prale af svimlende 1 milliard parametre. Accelerationen her opnås gennem ultrahøj kompressionsteknikker. I stedet for den skjulte kodestørrelse på 128x128x4, som det ses i SDXL, fungerer Würstchen V2 i første omgang med en opløsning på 24x24x16. Dette betyder færre pixels, men flere kanaler, hvilket resulterer i et markant hastighedsboost.
- Fase B: Dette er en diffusionsmodel udstyret med 600 millioner parametre, ansvarlig for at dekomprimere billedet fra 24×24 til en opløsning på 128×128.
Processen afsluttes med en dekoder med 20 millioner parametre, der omdanner den skjulte kode til et gengivet billede.
Den praktiske fordel, der umiddelbart skiller sig ud, er Würstchen V2's bemærkelsesværdige hastighed. Den opererer med en hastighed, der er 2-2.5 gange hurtigere end SDXL, et bemærkelsesværdigt fremskridt inden for Generering af AI-billeder.
Som med enhver teknologisk innovation kan der være afvejninger. Med hensyn til billedkvalitet foreslår nogle eksperter et lille tab, selvom der stadig afventes en omfattende og ærlig sammenligning for at give konkrete beviser.
Genererede tekst-til-billede eksempler er nedenfor:
Læs flere relaterede emner:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.