Rapport de nouvelles
06 novembre 2022

ERNIE-ViLG 2.0 : Le nouveau modèle texte-image de Baidu surpasse Dalle-2 et Stable Diffusion

En bref

Dalle-2 et Stable Diffusion ont été largement surperformés par ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 est un modèle texte-image qui offre de meilleures performances que Dalle-2 et Stable Diffusion, deux des modèles de conversion de texte en image les plus populaires actuellement disponibles. Le nouveau modèle a été conçu et formé par une équipe de chercheurs de Baidu, et les résultats sont à couper le souffle.

Le nouveau modèle de conversion texte-image ERNIE-ViLG 2.0 surpasse Dalle-2 et Stable Diffusion
L'image créée par ERNIE-ViLG 2.0

Les résultats ont démontré qu'ERNIE-ViLG 2.0 surpassait significativement Dalle-2 et Stable Diffusion. Il s’agit d’une réalisation importante qui démontre la puissance du cadre ERNIE. Le Metaverse Post L'équipe a comparé ERNIE-ViLG 2.0 avec Stable Diffusion ci-dessous :

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Ces résultats appuient fortement l'hypothèse selon laquelle ERNIE-ViLG 2.0 est une solution plus efficace système de texte en image que Dalle-2 et Stable Diffusion.

L'architecture Unet de Stable Diffusion est pris comme base, mais avec des modifications :

  • Un mélange d'experts en débruitage : Il existe 10 réseaux de neurones au lieu d'un seul, chacun n'étant responsable que de certaines étapes de diffusion.
  • Connaissance textuelle : A repondéré automatiquement les mots dans la requête afin que les mots clés aient plus de poids.
  • Connaissance visuelle : Pendant la formation, des objets ont été détectés sur les résultats de génération intermédiaires et le poids de la fonction de perte sur les régions avec des objets a été augmenté.

En conséquence, le plus grand du monde modèle texte-image est sorti avec 24 milliards de paramètres (10 fois plus grands que SD) pour former le modèle.

Par rapport aux modèles précédents, ERNIE-ViLG 2.0 les dépasse largement en termes de qualité d'image et de correspondance image-texte lorsqu'il est testé simultanément sur le ViLG-300 bilingue. rapide fixé par une personne.

Les invites sont simplement traduites du chinois vers l'anglais automatiquement dans le Étreindre démo publique avant d'être envoyé dans l'IA. De nombreuses fonctionnalités en découlent.

  • ERNIE ne connaît pas de personnalités publiques internationales. Par exemple, ERNIE ne connaît pas Arnold Schwarzenegger. Il a certainement des favoris locaux en Chine.
  • En conséquence, la méthode consistant à utiliser des noms de célébrités dans les invites permet d'améliorer considérablement la qualité de l'information. visages échoue.
  • Vous pouvez vous attendre à une certaine distorsion à cause de la traduction du chinois, donc il pourrait y avoir des surprises pour vous si vous ne parlez pas chinois.
  • Il ne sait même rien de Greg Rutkowski.

Lire des articles connexes:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Hot Stories
Rejoignez notre newsletter.
Dernières infos

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Robinhood Crypto reçoit un avis Wells de la Securities and Exchange Commission concernant des violations présumées des valeurs mobilières
Marchés Rapport de nouvelles Technologie
Robinhood Crypto reçoit un avis Wells de la Securities and Exchange Commission concernant des violations présumées des valeurs mobilières
6 mai 2024
QuickSwap se déploie sur le réseau principal de couche X et étend le réseau Polygon CDK avec le lancement de Citadel
Rapport de nouvelles Technologie
QuickSwap se déploie sur le réseau principal de couche X et étend le réseau Polygon CDK avec le lancement de Citadel 
6 mai 2024
Le réseau de couche 2 Linea lance la revendication de jeton ZÉRO de ZeroLend Airdrop Utilisateurs et investisseurs
Marchés Rapport de nouvelles Technologie
Le réseau de couche 2 Linea lance la revendication de jeton ZÉRO de ZeroLend Airdrop Utilisateurs et investisseurs
6 mai 2024
Binance cessera de prendre en charge les produits et services BIDR et conseille aux utilisateurs de convertir leurs fonds avant le 20 août
Marchés Rapport de nouvelles Technologie
Binance cessera de prendre en charge les produits et services BIDR et conseille aux utilisateurs de convertir leurs fonds avant le 20 août
6 mai 2024
CRYPTOMERIA LABS PTE. LTD.