GLIGEN : nouveau modèle de génération de texte à image figé avec boîte englobante
En bref
GLIGEN, ou Grounded-Language-to-Image Generation, est une nouvelle technique qui s'appuie sur et étend la capacité des modèles de diffusion pré-formés actuels.
Avec les entrées de condition de légende et de cadre de délimitation, le modèle GLIGEN génère du text2img ancré dans le monde ouvert.
GLIGEN peut générer une variété d'objets dans des endroits et des styles spécifiques en tirant parti des connaissances d'un modèle text2img pré-entraîné.
GLIGEN peut également ancrer des points clés humains tout en générant du texte en images.
Les modèles de diffusion texte-image à grande échelle ont parcouru un long chemin. Cependant, la pratique actuelle consiste à se fier uniquement à la saisie de texte, ce qui peut limiter la contrôlabilité. GLIGEN, ou Grounded-Language-to-Image Generation, est une nouvelle technique qui s'appuie sur et étend la capacité des modèles de diffusion texte-image pré-formés actuels en leur permettant d'être conditionnés sur des entrées de mise à la terre.
Pour maintenir les connaissances conceptuelles approfondies du modèle pré-formé, les développeurs gèlent tous ses poids et pompent les informations de mise à la terre dans de nouvelles couches formables via un processus contrôlé. Avec les entrées de légende et de condition de boîte englobante, le modèle GLIGEN génère un texte à l'image fondé sur le monde ouvert, et la capacité de mise à la terre se généralise efficacement à de nouvelles configurations et concepts spatiaux.
Jetez un coup d'œil au demo ici.
- GLIGEN est basé sur des préformés existants modèles de diffusion, dont les poids originaux ont été gelés pour conserver des quantités massives de connaissances pré-formées.
- À chaque bloc de transformateur, une nouvelle couche d'auto-attention contrôlée entraînable est créée pour absorber une entrée de mise à la terre supplémentaire.
- Chaque jeton de mise à la terre contient deux types d'informations : des informations sémantiques sur l'objet mis à la terre (texte ou image codé) et des informations de position spatiale (boîte englobante codée ou points clés).
Article connexe: VToonify : un modèle d'IA en temps réel pour générer des vidéos de portraits artistiques |
Article connexe: Microsoft a publié un modèle de diffusion capable de créer un avatar 3D à partir d'une seule photo d'une personne |
En savoir plus sur l'IA :
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.