Rapport de nouvelles Technologie
17 novembre 2022

Nvidia a annoncé eDiff-I : nouvelle IA générative pour la synthèse de texte et d'image avec transfert instantané des styles

En bref

Nvidia lance eDiff-I pour aider les entreprises à créer des images attrayantes de haute qualité

La technique eDiff-I produit régulièrement une meilleure qualité de synthèse que DALL-E2 et Stable diffusion

eDiff-I est un nouvel outil de création de contenu IA qui fournit capacités de synthèse texte-image sans précédent pour les spécialistes du marketing et les entreprises, comme annoncé récemment par Nvidia. Avec eDiff-I, les entreprises peuvent créer rapidement et facilement des visuels attrayants de haute qualité sans avoir besoin d'équipement coûteux ou d'aide professionnelle. eDiff-I utilise le traitement du langage naturel (NLP) pour interpréter l'entrée de l'utilisateur et générer les images correspondantes. L'IA analyse ensuite les images et choisit la plus appropriée en fonction du contexte. Le résultat est une image de haute qualité et d'aspect professionnel qui peut être utilisée à diverses fins, telles que des supports marketing, des publications sur les réseaux sociaux, des campagnes par e-mail, etc.

eDiff-I est un IA générative de nouvelle génération outil de création de contenu qui fournit sans précédent texte à image synthèse, transfert de style rapide et peinture intuitive avec des mots. En tant que modèle de diffusion pour créer des visuels à partir de texte, eDiff-I suggère de former un ensemble de réseaux de débruitage experts, chacun spécialisé pour un intervalle de bruit particulier, en réponse à la découverte empirique que le comportement des modèles de diffusion varie à différentes phases d'échantillonnage.

Nvidia a annoncé eDiff-I : nouvelle IA générative pour la synthèse de texte et d'image avec transfert instantané des styles

Les intégrations de texte T5, les intégrations d'images CLIP et les intégrations de texte CLIP constituent la base du concept eDiff-I. Cette méthodologie peut produire des graphiques photoréalistes en réponse à n'importe quelle requête textuelle.

Il présente deux fonctionnalités supplémentaires en plus de la synthèse texte-image : (1) le transfert de style, qui nous permet de contrôler le style de l'échantillon généré à l'aide d'une image de style de référence, et (2) "Peindre avec des mots", un outil qui permet aux utilisateurs de créer des images en peignant des cartes de segmentation sur toile.

Pipeline
Pipeline

Le pipeline se compose d'une cascade de trois modèles de diffusion : un modèle de base capable de créer des échantillons avec une résolution de 64 × 64 et deux piles de super-résolution qui peuvent progressivement suréchantillonner les images à des résolutions de 256 × 256 et 1024 1024 × 5 XNUMX, respectivement. Les modèles calculent TXNUMX XXL et l'intégration de texte après avoir reçu une légende en entrée. Ces intégrations d’images peuvent être utilisées comme vecteur de style. Ensuite, introduisez ces intégrations dans notre cascade modèles de diffusion, qui produisent progressivement des images avec une résolution de 1024 x 1024.

L'approche eDiff-I se traduit systématiquement par une meilleure qualité de synthèse par rapport aux algorithmes open-source text-to-image (Stable diffusion) et (DALL-E2).

Résultats
Résultats

Lorsque les intégrations d'images CLIP sont utilisées, l'approche eDiff-I facilite le transfert de style. eDiff-I extrait d'abord le CLIP incorporations d'images à partir d'une image de style de référence, qui peuvent être utilisées comme vecteur de référence de style. Une référence stylistique peut être vue dans le panneau de gauche de la figure ci-dessous. Les résultats lorsque le conditionnement de style est activé sont affichés dans le panneau central. Les résultats lorsque le conditionnement de style est désactivé sont affichés dans le panneau de droite. Lorsque le conditionnement de style est appliqué, le modèle eDiff-I crée également des sorties fidèles au style de la légende d'entrée. Lorsque le conditionnement de style est désactivé, des photos d'aspect naturel sont produites.

Transfert de style
Transfert de style

En choisissant des phrases et en les griffonnant sur l'image, les utilisateurs de la méthode eDiff-I peuvent modifier l'emplacement des éléments répertoriés dans l'invite de texte. Après cela, le modèle utilise le invite et les cartes pour créer des images qui sont compatibles à la fois avec la légende et la carte d'entrée.

Lire des articles connexes:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus

Les fondateurs de Samourai Wallet accusés d'avoir facilité 2 milliards de dollars de transactions sur le Darknet

L'appréhension des fondateurs de Samourai Wallet représente un revers notable pour l'industrie, soulignant la persistance...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Pantera Capital investit dans la blockchain TON et exprime sa confiance dans le potentiel de Telegram pour élargir l'accessibilité de la cryptographie
La Brochure Rapport de nouvelles Technologie
Pantera Capital investit dans la blockchain TON et exprime sa confiance dans le potentiel de Telegram pour élargir l'accessibilité de la cryptographie
2 mai 2024
Mitosis lève 7 millions de dollars auprès d'Amber Group et de Foresight Ventures pour faire progresser son protocole de liquidité modulaire
La Brochure Rapport de nouvelles Technologie
Mitosis lève 7 millions de dollars auprès d'Amber Group et de Foresight Ventures pour faire progresser son protocole de liquidité modulaire
2 mai 2024
Galxe s'associe à Jambo pour étendre l'accessibilité mondiale à Web3
La Brochure Rapport de nouvelles Technologie
Galxe s'associe à Jambo pour étendre l'accessibilité mondiale à Web3
2 mai 2024
Med-Gemini de Google s'apprête à donner une longueur d'avance à GPT-4 Avec ses performances supérieures dans le domaine de la santé
AI Wiki Actualité Logiciels Technologie
Med-Gemini de Google s'apprête à donner une longueur d'avance à GPT-4 Avec ses performances supérieures dans le domaine de la santé
2 mai 2024
CRYPTOMERIA LABS PTE. LTD.