24 janvier 2023

GLIGEN : nouveau modèle de génération de texte à image figé avec boîte englobante

Publié : 24 janvier 2023 à 5h00 Mise à jour : 21 mars 2024 à 11h40

Edité et vérifié : 24 janvier 2023 à 5h00

En bref

GLIGEN, ou Grounded-Language-to-Image Generation, est une nouvelle technique qui s'appuie sur et étend la capacité des modèles de diffusion pré-formés actuels.

Avec les entrées de condition de légende et de cadre de délimitation, le modèle GLIGEN génère du text2img ancré dans le monde ouvert.

GLIGEN peut générer une variété d'objets dans des endroits et des styles spécifiques en tirant parti des connaissances d'un modèle text2img pré-entraîné.

GLIGEN peut également ancrer des points clés humains tout en générant du texte en images.

Les modèles de diffusion texte-image à grande échelle ont parcouru un long chemin. Cependant, la pratique actuelle consiste à se fier uniquement à la saisie de texte, ce qui peut limiter la contrôlabilité. GLIGEN, ou Grounded-Language-to-Image Generation, est une nouvelle technique qui s'appuie sur et étend la capacité des modèles de diffusion texte-image pré-formés actuels en leur permettant d'être conditionnés sur des entrées de mise à la terre.

GLIGEN : nouveau modèle de génération de texte à image figé avec boîte englobante

Pour maintenir les connaissances conceptuelles approfondies du modèle pré-formé, les développeurs gèlent tous ses poids et pompent les informations de mise à la terre dans de nouvelles couches formables via un processus contrôlé. Avec les entrées de légende et de condition de boîte englobante, le modèle GLIGEN génère un texte à l'image fondé sur le monde ouvert, et la capacité de mise à la terre se généralise efficacement à de nouvelles configurations et concepts spatiaux.

Jetez un coup d'œil au demo ici.

GLIGEN est basé sur des modèles de diffusion pré-entraînés existants, dont les poids originaux ont été gelés pour conserver des quantités massives de connaissances pré-entraînées.

GLIGEN est basé sur des préformés existants modèles de diffusion, dont les poids originaux ont été gelés pour conserver des quantités massives de connaissances pré-formées.
À chaque bloc de transformateur, une nouvelle couche d'auto-attention contrôlée entraînable est créée pour absorber une entrée de mise à la terre supplémentaire.
Chaque jeton de mise à la terre contient deux types d'informations : des informations sémantiques sur l'objet mis à la terre (texte ou image codé) et des informations de position spatiale (boîte englobante codée ou points clés).

Article connexe: VToonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques

Les couches modulées nouvellement ajoutées sont continuellement pré-formées sur des données de mise à la terre massives (image-zone de texte), ce qui est plus rentable que les méthodes alternatives d'utilisation d'un modèle de diffusion pré-formé, comme le réglage fin du modèle complet. Semblable à Lego, différentes couches entraînées peuvent être connectées et déconnectées pour permettre diverses nouvelles fonctionnalités. — Les couches modulées nouvellement ajoutées sont continuellement pré-entraînées sur des données de mise à la terre massives (image-text-box). Cette méthode est plus rentable que les méthodes alternatives consistant à utiliser un modèle de diffusion, comme le réglage fin du modèle complet. Semblable à Lego, différentes couches entraînées peuvent être connectées et déconnectées pour permettre diverses nouvelles fonctionnalités.

GLIGEN prend en charge l'échantillonnage planifié dans le processus de diffusion pour l'inférence, où le modèle peut choisir dynamiquement d'utiliser des jetons de mise à la terre (en ajoutant la nouvelle couche) ou le modèle de diffusion d'origine avec un bon avant (en supprimant la nouvelle couche), et ainsi équilibrer la qualité de génération et capacité de mise à la terre.

GLIGEN peut générer une variété d'objets dans des endroits et des styles spécifiques en tirant parti des connaissances d'un modèle text2img pré-entraîné.

Article connexe: Microsoft a publié un modèle de diffusion capable de créer un avatar 3D à partir d'une seule photo d'une personne

GLIGEN peut également être formé à l'aide de photos de référence. La rangée du haut suggère que les photographies de référence, en plus des descriptions écrites, peuvent fournir des caractéristiques plus fines telles que le style et la forme de la voiture. La deuxième rangée montre qu'une image de référence peut également être utilisée comme image de style, auquel cas nous découvrons qu'il suffit de l'ancrer dans un coin ou un bord d'une image.

GLIGEN, comme d'autres modèles de diffusion, peut effectuer une inpeinture d'image ancrée, ce qui peut générer des objets qui correspondent étroitement aux boîtes englobantes fournies.

GLIGEN peut également ancrer des points clés humains tout en générant du texte en images. — GLIGEN peut également ancrer des points clés humains tout en génération de texte en images.

En savoir plus sur l'IA :

Mots clés:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.

Plus d'articles

Damir Yalalov