StyleGAN-T: Den hurtigste tekst-til-billede-generering, der giver resultater på mindre end 0.1 sekund
Kort sagt
StyleGAN-T er en ny GAN til tex2image generation.
Denne GAN giver gode resultater og er endda ret hurtig (0.1 sek. for et 512×512 billede).
Den nye arkitektur er baseret på StyleGAN-XL, men den revurderer generator- og diskriminatordesignerne.
Du har helt sikkert bemærket, at GAN'er ikke længere diskuteres, når emnet billedgenerering kommer op. Efter diffusionsmodeller som Stable Diffusion opstod, trak GAN'er sig på en eller anden måde tilbage i baggrunden. Dette skyldes, at de er udfordrende at træne og ofte snubler over. Den eneste fordel ved GAN'er var, at de, i modsætning til diffusionsmodeller, producerer et billede i en enkelt kørsel (et "forlæns gennemløb") i stedet for mange kørsler.
Men nu er en ny spiller fra GAN'erne kommet på banen: StyleGAN-T. Denne GAN til tekst-til-billede-generering giver gode resultater hurtigt, da det kun tager 0.1 sek. for et 512×512-billede. Den nye arkitektur er baseret på StyleGAN-XL, men den revurderer generator- og diskriminatordesignerne og anvender CLIP til tekstpromptjustering og genereret grafik.
Generelt skaber StyleGAN-T nu tekst-til-billede hurtigere og mere præcist end andre GAN'er. GAN er dog stadig forfærdelig, og kvaliteten af SD-modellen i fuld størrelse er åbenbart udelukket. Men det hele vil afhænge af evnen til at producere billeder i ekstrem høj kvalitet fra tekst på mindre end et sekund på et år. Derudover vil det falde et sted mellem GAN og diffusionsmodel.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.