Nyheds rapport
Marts 20, 2023

Ny tekst-til-billede-model GigaGAN kan generere 4K-billeder på 3.66s

Kort sagt

Forskere har udviklet en ny tekst-til-billede-model kaldet GigaGAN, der kan generere 4K-billeder på 3.66 sekunder.

Det er baseret på GAN (generative adversarial network) framework, som er en type neurale netværk der kan lære at generere data svarende til et træningsdatasæt. GigaGAN er i stand til at generere 512px billeder på 0.13 sekunder, 10 gange hurtigere end den tidligere state-of-the-art model, og har et adskilt, kontinuerligt og kontrollerbart latent rum.

Det kan også bruges til at træne en effektiv upsampler af højere kvalitet.

Forskere har udviklet en ny tekst-til-billede-model kaldet GigaGAN der kan generere 4K-billeder på 3.66 sekunder. Dette er en væsentlig forbedring i forhold til eksisterende tekst-til-billede-modeller, som kan tage minutter eller endda timer at generere et enkelt billede.

Den nye tekst-til-billede-model GigaGAN kan generere 4K-billeder på 3.66s

GigaGAN er baseret på GAN (generative adversarial network) frameworket, som er en type neuralt netværk, der kan lære at generere data, der ligner et træningsdatasæt. GAN'er er blevet brugt til at generere realistiske billeder af ansigter, landskaber og endda Street View-billeder.

Læs mere: 5+ mest forventede tekst-til-billede AI-modeller fra 2023

Den nye model er blevet trænet på et datasæt på 1 milliard billeder, hvilket er størrelsesordener større end de datasæt, der blev brugt til at træne tidligere tekst-til-billede-modeller. Som et resultat er GigaGAN i stand til at generere 512px-billeder på 0.13 sekunder, hvilket er mere end 10 gange hurtigere end den tidligere state-of-the-art tekst-til-billede-model.

Derudover kommer GigaGAN med et adskilt, kontinuerligt og kontrollerbart latent rum. Det betyder, at GigaGAN kan generere billeder, der har en række forskellige stilarter, og at de genererede billeder til en vis grad kan styres. For eksempel kan GigaGAN generere billeder, der bevarer layoutet af tekstinputtet, hvilket er vigtigt for applikationer, for eksempel når der genereres billeder af produktlayouts fra tekstbeskrivelser.

GigaGAN kan også bruges til at træne en effektiv upsampler af højere kvalitet. Dette kan anvendes på rigtige billeder eller til output fra andre tekst-til-billede modeller.

En tekstkodningsgren, stilkortlægningsnetværk, flerskalasyntese-netværk og stabil opmærksomhed og adaptivt kernevalg er alle en del af GigaGAN-generatoren. Udviklere begynder tekstkodningsgrenen ved at udtrække tekstindlejringer med en forudtrænet CLIP-model og indlærte opmærksomhedslag T. På samme måde som StyleGAN, overføres indlejringen til stilkortlægningsnetværket M, som genererer stilvektoren w. For at generere en billedpyramide bruger syntesenetværket nu stilkoden som modulering og tekstindlejringerne som opmærksomhed. Ydermere introducerer udviklere prøveadaptivt kernevalg for at vælge foldningskerner adaptivt baseret på inputtekstkonditionering.

Diskriminatoren har ligesom generatoren to grene til behandling af billedet og tekstbehandlingen. Tekstgrenen behandler ligesom generatoren tekst. Billedgrenen får en billedpyramide og har til opgave at lave uafhængige forudsigelser for hver billedskala. Endvidere foretages forudsigelser på alle efterfølgende downsampling-lagskalaer. Yderligere tab bruges også til at fremme effektiv konvergens.

Som vist i interpolationsgitteret giver GigaGAN mulighed for jævn interpolation mellem prompter. De fire hjørner oprettes ved hjælp af den samme latente z, men forskellige tekstprompter.

Fordi GigaGAN bevarer et sammenfiltret latent rum, kan udviklere kombinere den grove stil af en prøve med den fine stil af en anden. GigaGAN kan også styre stilen direkte med tekstprompter.

Læs flere relaterede artikler:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Flere artikler
Damir Yalalov
Damir Yalalov

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab. 

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere

Samourai Wallet Founders anklaget for at facilitere $2B i Darknet-tilbud

Frygten fra Samourai Wallet-grundlæggerne repræsenterer et bemærkelsesværdigt tilbageslag for industrien, hvilket understreger den vedvarende ...

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
Pantera Capital investerer i TON Blockchain, udtrykker tillid til Telegrams potentiale for at udvide kryptotilgængelighed
Forretning Nyheds rapport Teknologier
Pantera Capital investerer i TON Blockchain, udtrykker tillid til Telegrams potentiale for at udvide kryptotilgængelighed
Maj 2, 2024
Mitosis hæver $7M i finansiering fra Amber Group og fremsynsprojekter for at fremme sin modulære likviditetsprotokol
Forretning Nyheds rapport Teknologier
Mitosis hæver $7M i finansiering fra Amber Group og fremsynsprojekter for at fremme sin modulære likviditetsprotokol
Maj 2, 2024
Galxe samarbejder med Jambo for at udvide den globale tilgængelighed til Web3
Forretning Nyheds rapport Teknologier
Galxe samarbejder med Jambo for at udvide den globale tilgængelighed til Web3
Maj 2, 2024
Hongkongs lovgivende rådsmedlem Wu Jiezhuang signalerer civil retssag mod JPEX Crypto Exchange
Forretning Nyheds rapport Teknologier
Hongkongs lovgivende rådsmedlem Wu Jiezhuang signalerer civil retssag mod JPEX Crypto Exchange
Maj 2, 2024