Nieuwsverslag
20 maart 2023

Nieuw tekst-naar-beeldmodel GigaGAN kan 4K-beelden genereren in 3.66 seconden

In het kort

Onderzoekers hebben een nieuw tekst-naar-beeld-model ontwikkeld, GigaGAN genaamd, dat 4K-beelden kan genereren in 3.66 seconden.

Het is gebaseerd op het GAN-framework (generative adversarial network), een soort van neuraal netwerk die kunnen leren gegevens te genereren die vergelijkbaar zijn met een trainingsdataset. GigaGAN kan 512px-afbeeldingen genereren in 0.13 seconden, 10 keer sneller dan het vorige geavanceerde model, en heeft een ontwarde, continue en controleerbare latente ruimte.

Het kan ook worden gebruikt om een ​​efficiënte upsampler van hogere kwaliteit te trainen.

Onderzoekers hebben een nieuw tekst-naar-beeld-model ontwikkeld, genaamd GigaGAN dat kan genereren 4K beelden in 3.66 seconden. Dit is een grote verbetering ten opzichte van bestaande tekst-naar-afbeelding-modellen, waarbij het minuten of zelfs uren kan duren om één afbeelding te genereren.

Het nieuwe tekst-naar-beeldmodel GigaGAN kan 4K-beelden genereren met 3.66 seconden

GigaGAN is gebaseerd op het GAN-framework (generatief adversarial network), een type neuraal netwerk dat kan leren gegevens te genereren die vergelijkbaar zijn met een trainingsdataset. GAN's zijn gebruikt om realistische afbeeldingen van gezichten, landschappen en zelfs Street View-afbeeldingen te genereren.

Lees verder: 5+ meest verwachte Text-to-Image AI-modellen van 2023

Het nieuwe model is getraind op een dataset van 1 miljard afbeeldingen, wat ordes van grootte groter is dan de datasets die werden gebruikt om eerdere tekst-naar-afbeelding-modellen te trainen. Als gevolg hiervan kan GigaGAN 512px-afbeeldingen genereren in 0.13 seconden, wat meer dan 10 keer sneller is dan het vorige geavanceerde tekst-naar-afbeelding-model.

Bovendien wordt GigaGAN geleverd met een ontwarde, continue en controleerbare latente ruimte. Dit betekent dat GigaGAN afbeeldingen kan genereren die verschillende stijlen hebben, en dat de gegenereerde afbeeldingen tot op zekere hoogte kunnen worden gecontroleerd. GigaGAN kan bijvoorbeeld afbeeldingen genereren die de lay-out van de tekstinvoer behouden, wat belangrijk is voor toepassingen, bijvoorbeeld bij het genereren van afbeeldingen van productlay-outs uit tekstbeschrijvingen.

GigaGAN kan ook worden gebruikt om een ​​efficiënte upsampler van hogere kwaliteit te trainen. Dit kan worden toegepast op echte afbeeldingen of op uitvoer van andere tekst-naar-beeld modellen.

Een vertakking voor tekstcodering, een netwerk voor het in kaart brengen van stijlen, een synthesenetwerk met meerdere schalen en stabiele aandacht en adaptieve kernelselectie maken allemaal deel uit van de GigaGAN-generator. Ontwikkelaars beginnen de tekstcoderingstak door tekstinsluitingen te extraheren met een vooraf getraind CLIP-model en aangeleerde aandachtslagen T. Net als StijlGAN, wordt de inbedding doorgegeven aan het stijlmappingnetwerk M, dat de stijlvector w genereert. Om een ​​beeldpiramide te genereren, gebruikt het synthesenetwerk nu de stijlcode als modulatie en de tekstinbedding als attentie. Bovendien introduceren ontwikkelaars voorbeeld-adaptieve kernelselectie om convolutiekernels adaptief te selecteren op basis van invoertekstconditionering.

De discriminator heeft, net als de generator, twee takken voor het verwerken van de beeld- en tekstconditionering. De teksttak verwerkt, net als de generator, tekst. De afbeeldingstak krijgt een afbeeldingspiramide en moet onafhankelijke voorspellingen doen voor elke afbeeldingsschaal. Bovendien worden voorspellingen gedaan op alle volgende downsampling-laagschalen. Extra verliezen worden ook gebruikt om effectieve convergentie te stimuleren.

Zoals te zien is in het interpolatieraster, zorgt GigaGAN voor een soepele interpolatie tussen prompts. De vier hoeken worden gemaakt met dezelfde latente z maar met verschillende tekstprompts.

Omdat GigaGAN een ontwarde latente ruimte behoudt, kunnen ontwikkelaars de grove stijl van de ene sample combineren met de fijne stijl van een andere. GigaGAN kan de stijl ook rechtstreeks regelen met tekstprompts.

Lees meer gerelateerde artikelen:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten

Oprichters van Samourai Wallet beschuldigd van het faciliteren van $2 miljard aan Darknet-deals

De arrestatie van de oprichters van Samourai Wallet betekent een opmerkelijke tegenslag voor de sector en onderstreept de aanhoudende ...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
AltLayer gaat de tweede fase van zijn stakingsinitiatief in en introduceert reALT-token
Markten Nieuwsverslag Technologie
AltLayer gaat de tweede fase van zijn stakingsinitiatief in en introduceert reALT-token
2 mei 2024
BNB Chain publiceert rapport over eerste kwartaal 1, waarin waardeverlies met 2024% wordt benadrukt, terwijl BSC TVL met 55.8% stijgt
Markten Nieuwsverslag Technologie
BNB Chain publiceert rapport over eerste kwartaal 1, waarin waardeverlies met 2024% wordt benadrukt, terwijl BSC TVL met 55.8% stijgt
2 mei 2024
Aave Labs onthult 'Aave 2030'-voorstel inclusief lancering van het Aave V4-protocol
Business Nieuwsverslag Technologie
Aave Labs onthult 'Aave 2030'-voorstel inclusief lancering van het Aave V4-protocol
2 mei 2024
Ankr werkt samen met AI Blockchain Platform Talus Network om Bitcoin-liquiditeit voor AI te ontsluiten
Business Nieuwsverslag Technologie
Ankr werkt samen met AI Blockchain Platform Talus Network om Bitcoin-liquiditeit voor AI te ontsluiten
1 mei 2024