GLIGEN: nieuw model voor het genereren van bevroren tekst naar afbeelding met begrenzingskader
In het kort
GLIGEN, of Grounded-Language-to-Image Generation, is een nieuwe techniek die voortbouwt op en de mogelijkheden van de huidige vooraf getrainde diffusiemodellen uitbreidt.
Met caption- en begrenzingskadervoorwaarde-invoer genereert het GLIGEN-model geaarde tekst2img in de open wereld.
GLIGEN kan een verscheidenheid aan objecten op specifieke plaatsen en stijlen genereren door gebruik te maken van kennis van een vooraf getraind text2img-model.
GLIGEN kan ook menselijke kernpunten aarden tijdens het genereren van tekst-naar-afbeeldingen.
Grootschalige tekst-naar-beeld diffusiemodellen hebben een lange weg afgelegd. De huidige praktijk is echter om uitsluitend te vertrouwen op tekstinvoer, wat de beheersbaarheid kan beperken. GLIGEN, of Grounded-Language-to-Image Generation, is een nieuwe techniek die voortbouwt op en de mogelijkheden van de huidige vooraf getrainde tekst-naar-beeld-diffusiemodellen uitbreidt door ze te laten conditioneren op aardingsinvoer.
Om de uitgebreide conceptkennis van het voorgetrainde model te behouden, bevriezen ontwikkelaars alle gewichten en pompen de aardingsinformatie via een gecontroleerd proces in nieuwe, trainbare lagen. Met caption- en bounding box-voorwaarde-invoer genereert het GLIGEN-model tekst-naar-afbeelding in de open wereld, en het vermogen om te aarden wordt effectief gegeneraliseerd naar nieuwe ruimtelijke configuraties en concepten.
Check out de demonstratie hier.
- GLIGEN is gebaseerd op bestaande pre-train diffusiemodellen, waarvan de oorspronkelijke gewichten zijn bevroren om enorme hoeveelheden voorgetrainde kennis te behouden.
- Bij elk transformatorblok wordt een nieuwe trainbare Gated Self-Attention-laag gemaakt om extra aardingsinvoer te absorberen.
- Elk aardingstoken heeft twee soorten informatie: semantische informatie over het geaarde ding (gecodeerde tekst of afbeelding) en ruimtelijke positie-informatie (gecodeerde begrenzingskader of sleutelpunten).
Gerelateerd artikel: VToonify: een real-time AI-model voor het genereren van artistieke portretvideo's |
Gerelateerd artikel: Microsoft heeft een diffusiemodel uitgebracht dat een 3D-avatar kan bouwen op basis van een enkele foto van een persoon |
Lees meer over AI:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.