Nieuwsverslag Technologie
24 januari 2023

GLIGEN: nieuw model voor het genereren van bevroren tekst naar afbeelding met begrenzingskader

In het kort

GLIGEN, of Grounded-Language-to-Image Generation, is een nieuwe techniek die voortbouwt op en de mogelijkheden van de huidige vooraf getrainde diffusiemodellen uitbreidt.

Met caption- en begrenzingskadervoorwaarde-invoer genereert het GLIGEN-model geaarde tekst2img in de open wereld.

GLIGEN kan een verscheidenheid aan objecten op specifieke plaatsen en stijlen genereren door gebruik te maken van kennis van een vooraf getraind text2img-model.

GLIGEN kan ook menselijke kernpunten aarden tijdens het genereren van tekst-naar-afbeeldingen.

Grootschalige tekst-naar-beeld diffusiemodellen hebben een lange weg afgelegd. De huidige praktijk is echter om uitsluitend te vertrouwen op tekstinvoer, wat de beheersbaarheid kan beperken. GLIGEN, of Grounded-Language-to-Image Generation, is een nieuwe techniek die voortbouwt op en de mogelijkheden van de huidige vooraf getrainde tekst-naar-beeld-diffusiemodellen uitbreidt door ze te laten conditioneren op aardingsinvoer.

GLIGEN: nieuw model voor het genereren van bevroren tekst naar afbeelding met begrenzingskader

Om de uitgebreide conceptkennis van het voorgetrainde model te behouden, bevriezen ontwikkelaars alle gewichten en pompen de aardingsinformatie via een gecontroleerd proces in nieuwe, trainbare lagen. Met caption- en bounding box-voorwaarde-invoer genereert het GLIGEN-model tekst-naar-afbeelding in de open wereld, en het vermogen om te aarden wordt effectief gegeneraliseerd naar nieuwe ruimtelijke configuraties en concepten.

Check out de demonstratie hier.

GLIGEN is gebaseerd op bestaande vooraf getrainde diffusiemodellen, waarvan de oorspronkelijke gewichten zijn bevroren om enorme hoeveelheden vooraf getrainde kennis te behouden.
  • GLIGEN is gebaseerd op bestaande pre-train diffusiemodellen, waarvan de oorspronkelijke gewichten zijn bevroren om enorme hoeveelheden voorgetrainde kennis te behouden.
  • Bij elk transformatorblok wordt een nieuwe trainbare Gated Self-Attention-laag gemaakt om extra aardingsinvoer te absorberen.
  • Elk aardingstoken heeft twee soorten informatie: semantische informatie over het geaarde ding (gecodeerde tekst of afbeelding) en ruimtelijke positie-informatie (gecodeerde begrenzingskader of sleutelpunten).
Gerelateerd artikel: VToonify: een real-time AI-model voor het genereren van artistieke portretvideo's
Nieuw toegevoegde gemoduleerde lagen worden continu vooraf getraind op enorme aardingsgegevens (afbeelding-tekstvak), wat kosteneffectiever is dan alternatieve methoden voor het gebruik van een vooraf getraind diffusiemodel, zoals fijnafstemming van het volledige model. Net als bij Lego kunnen verschillende getrainde lagen worden in- en uitgeschakeld om verschillende nieuwe mogelijkheden mogelijk te maken.
Nieuw toegevoegde gemoduleerde lagen worden voortdurend vooraf getraind op enorme aardingsgegevens (afbeelding-tekst-vak). Dit is kosteneffectiever dan alternatieve methoden voor het gebruik van een vooraf getraind persoon diffusiemodel, zoals fijnafstemming van het volledige model. Net als bij Lego kunnen verschillende getrainde lagen worden in- en uitgeschakeld om verschillende nieuwe mogelijkheden mogelijk te maken.
GLIGEN ondersteunt geplande bemonstering in het diffusieproces voor gevolgtrekking, waarbij het model dynamisch kan selecteren om aardingstokens te gebruiken (door de nieuwe laag toe te voegen) of het originele diffusiemodel met goede voorafgaande (door de nieuwe laag eruit te schoppen), en zo de generatiekwaliteit in evenwicht te brengen en aardingsvermogen.
GLIGEN ondersteunt geplande bemonstering in het diffusieproces voor gevolgtrekking, waarbij het model dynamisch kan selecteren om aardingstokens te gebruiken (door de nieuwe laag toe te voegen) of het originele diffusiemodel met goede voorafgaande (door de nieuwe laag eruit te schoppen), en zo de generatiekwaliteit in evenwicht te brengen en aardingsvermogen.
GLIGEN kan een verscheidenheid aan objecten op specifieke plaatsen en stijlen genereren door gebruik te maken van kennis van een vooraf getraind text2img-model.
GLIGEN kan een verscheidenheid aan objecten op specifieke plaatsen en stijlen genereren door gebruik te maken van kennis van een vooraf getraind text2img-model.
Gerelateerd artikel: Microsoft heeft een diffusiemodel uitgebracht dat een 3D-avatar kan bouwen op basis van een enkele foto van een persoon
GLIGEN kan ook worden getraind met behulp van referentiefoto's.
GLIGEN kan ook worden getraind met behulp van referentiefoto's. De bovenste rij suggereert dat referentiefoto's, naast schriftelijke beschrijvingen, meer fijnmazige kenmerken kunnen bieden, zoals stijl en vorm van de auto. De tweede rij laat zien dat een referentiebeeld ook gebruikt kan worden als stijlbeeld, in welk geval we ontdekken dat het voldoende is om het in een hoek of rand van een beeld te aarden.
GLIGEN kan, net als andere diffusiemodellen, grounded image inpaint uitvoeren, wat objecten kan genereren die nauw aansluiten bij de geleverde begrenzingskaders.
GLIGEN kan, net als andere diffusiemodellen, grounded image inpaint uitvoeren, wat objecten kan genereren die nauw aansluiten bij de geleverde begrenzingskaders.
GLIGEN kan ook menselijke kernpunten aarden tijdens het genereren van tekst-naar-afbeeldingen.
GLIGEN kan ook menselijke kernpunten aarden terwijl het genereren van tekst-naar-afbeeldingen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
Business Nieuwsverslag Technologie
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
3 mei 2024
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
Markten Nieuwsverslag Technologie
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
3 mei 2024
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
Markten Nieuwsverslag Technologie
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
3 mei 2024
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
Business Nieuwsverslag Technologie
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
3 mei 2024