StyleGAN-T: Den snabbaste text-till-bild-genereringen som ger resultat på mindre än 0.1 sekund
I korthet
StyleGAN-T är ett nytt GAN för generering av tex2image.
Denna GAN ger bra resultat och är till och med ganska snabb (0.1 sek för en 512×512 bild).
Den nya arkitekturen är baserad på StyleGAN-XL, men den omvärderar generator- och diskriminatordesignerna.
Du har säkert märkt att GAN inte längre diskuteras när ämnet bildgenerering kommer upp. Efter diffusionsmodeller som Stable Diffusion uppkom, drog sig GAN på något sätt tillbaka i bakgrunden. Detta beror på att de är utmanande att träna och snubblar ofta över. Den enda fördelen med GAN var att de, till skillnad från diffusionsmodeller, producerar en bild i en enda körning (en "framåtpassning") istället för många körningar.
Men nu har en ny spelare från GAN kommit in på fältet: StyleGAN-T. Denna GAN för generering av text-till-bild ger bra resultat snabbt, eftersom det bara tar 0.1 sek för en 512×512-bild. Den nya arkitekturen är baserad på StyleGAN-XL, men den omvärderar generator- och diskriminatordesignerna och använder CLIP för justering av textmeddelanden och genererad grafik.
Generellt sett skapar StyleGAN-T nu text-till-bild snabbare och mer exakt än andra GAN. GAN är dock fortfarande hemskt och kvaliteten på SD-modellen i full storlek är uppenbarligen uteslutet. Men att allt kommer att bero på förmågan att producera extremt högkvalitativa bilder från text på mindre än en sekund på ett år. Dessutom kommer det att hamna någonstans mellan GAN och diffusionsmodell.
Läs mer om AI:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.