Ny tekst-til-billede-model GigaGAN kan generere 4K-billeder på 3.66s
Kort sagt
Forskere har udviklet en ny tekst-til-billede-model kaldet GigaGAN, der kan generere 4K-billeder på 3.66 sekunder.
Det er baseret på GAN (generative adversarial network) framework, som er en type neurale netværk der kan lære at generere data svarende til et træningsdatasæt. GigaGAN er i stand til at generere 512px billeder på 0.13 sekunder, 10 gange hurtigere end den tidligere state-of-the-art model, og har et adskilt, kontinuerligt og kontrollerbart latent rum.
Det kan også bruges til at træne en effektiv upsampler af højere kvalitet.
Forskere har udviklet en ny tekst-til-billede-model kaldet GigaGAN der kan generere 4K-billeder på 3.66 sekunder. Dette er en væsentlig forbedring i forhold til eksisterende tekst-til-billede-modeller, som kan tage minutter eller endda timer at generere et enkelt billede.
GigaGAN er baseret på GAN (generative adversarial network) frameworket, som er en type neuralt netværk, der kan lære at generere data, der ligner et træningsdatasæt. GAN'er er blevet brugt til at generere realistiske billeder af ansigter, landskaber og endda Street View-billeder.
Den nye model er blevet trænet på et datasæt på 1 milliard billeder, hvilket er størrelsesordener større end de datasæt, der blev brugt til at træne tidligere tekst-til-billede-modeller. Som et resultat er GigaGAN i stand til at generere 512px-billeder på 0.13 sekunder, hvilket er mere end 10 gange hurtigere end den tidligere state-of-the-art tekst-til-billede-model.
Derudover kommer GigaGAN med et adskilt, kontinuerligt og kontrollerbart latent rum. Det betyder, at GigaGAN kan generere billeder, der har en række forskellige stilarter, og at de genererede billeder til en vis grad kan styres. For eksempel kan GigaGAN generere billeder, der bevarer layoutet af tekstinputtet, hvilket er vigtigt for applikationer, for eksempel når der genereres billeder af produktlayouts fra tekstbeskrivelser.
GigaGAN kan også bruges til at træne en effektiv upsampler af højere kvalitet. Dette kan anvendes på rigtige billeder eller til output fra andre tekst-til-billede modeller.
En tekstkodningsgren, stilkortlægningsnetværk, flerskalasyntese-netværk og stabil opmærksomhed og adaptivt kernevalg er alle en del af GigaGAN-generatoren. Udviklere begynder tekstkodningsgrenen ved at udtrække tekstindlejringer med en forudtrænet CLIP-model og indlærte opmærksomhedslag T. På samme måde som StyleGAN, overføres indlejringen til stilkortlægningsnetværket M, som genererer stilvektoren w. For at generere en billedpyramide bruger syntesenetværket nu stilkoden som modulering og tekstindlejringerne som opmærksomhed. Ydermere introducerer udviklere prøveadaptivt kernevalg for at vælge foldningskerner adaptivt baseret på inputtekstkonditionering.
Diskriminatoren har ligesom generatoren to grene til behandling af billedet og tekstbehandlingen. Tekstgrenen behandler ligesom generatoren tekst. Billedgrenen får en billedpyramide og har til opgave at lave uafhængige forudsigelser for hver billedskala. Endvidere foretages forudsigelser på alle efterfølgende downsampling-lagskalaer. Yderligere tab bruges også til at fremme effektiv konvergens.
Som vist i interpolationsgitteret giver GigaGAN mulighed for jævn interpolation mellem prompter. De fire hjørner oprettes ved hjælp af den samme latente z, men forskellige tekstprompter.
Fordi GigaGAN bevarer et sammenfiltret latent rum, kan udviklere kombinere den grove stil af en prøve med den fine stil af en anden. GigaGAN kan også styre stilen direkte med tekstprompter.
Læs flere relaterede artikler:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.