StyleGAN-T: de snelste tekst-naar-afbeelding generatie die resultaten produceert in minder dan 0.1 seconde
In het kort
StyleGAN-T is een nieuwe GAN voor het genereren van tex2image.
Deze GAN geeft goede resultaten en is zelfs vrij snel (0.1 sec voor een 512×512 beeld).
De nieuwe architectuur is gebaseerd op StyleGAN-XL, maar evalueert de generator- en discriminatorontwerpen opnieuw.
Het is je vast opgevallen dat GAN's niet meer worden besproken als het gaat om het genereren van afbeeldingen. Na diffusiemodellen zoals Stable Diffusion ontstond, trokken GAN's zich op de een of andere manier terug naar de achtergrond. Dit komt omdat ze een uitdaging zijn om te trainen en er vaak over struikelen. Het enige voordeel van GAN's was dat ze, in tegenstelling tot diffusiemodellen, een beeld produceren in een enkele run (een "forward pass") in plaats van in vele runs.
Maar nu is er een nieuwe speler van de GAN's in het veld gekomen: StijlGAN-T. Deze GAN voor het genereren van tekst naar afbeelding levert snel goede resultaten op, aangezien het slechts 0.1 seconde duurt voor een afbeelding van 512×512. De nieuwe architectuur is gebaseerd op StyleGAN-XL, maar evalueert de generator- en discriminatorontwerpen opnieuw en maakt gebruik van CLIP voor het uitlijnen van tekstprompts en gegenereerde afbeeldingen.
Gerelateerd artikel: VToonify: een real-time AI-model voor het genereren van artistieke portretvideo's |
Over het algemeen creëert StyleGAN-T nu sneller en nauwkeuriger tekst-naar-afbeelding dan andere GAN's. GAN is echter nog steeds verschrikkelijk en de kwaliteit van het SD-model op volledige grootte is uiteraard uitgesloten. Maar dat zal allemaal afhangen van het vermogen om in minder dan een seconde per jaar afbeeldingen van extreem hoge kwaliteit uit tekst te produceren. Bovendien zal het ergens tussen GAN en de diffusiemodel.
Lees meer over AI:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.