Rapport de nouvelles Technologie
19 septembre 2023

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution

Un tweet récent par l'auteur d'un article intitulé « Würstchen » (en allemand pour « Saucisse ») a retenu l'attention des passionnés et des experts. Le tweet partageait les résultats fascinants de la génération d’images à l’aide du nouveau modèle Würstchen V2.

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Services Connexes: Midjourney 5.2 et Stable Diffusion Mises à jour SDXL 0.9 pour la génération de création de texte en image

Würstchen est rapide et efficace, générant des images plus rapidement que des modèles comme Stable Diffusion XL tout en utilisant moins de mémoire. Il a également réduit les coûts de formation, Würstchen v1 ne nécessitant que 9,000 512 heures de formation sur GPU à des résolutions de 512 × 150,000, contre XNUMX XNUMX heures de GPU consacrées à Stable Diffusion 1.4. Cette réduction des coûts par 16 profite non seulement aux chercheurs menant de nouvelles expériences, mais ouvre également la porte à davantage d’organisations pour former de tels modèles. Würstchen v2 utilisait 24,602 6 heures GPU, ce qui le rend 1.4 fois moins cher que SD512, qui n'était formé qu'à 512 × XNUMX.

Une caractéristique remarquable qui a immédiatement attiré l’attention de la communauté de l’IA est la vitesse impressionnante de Würstchen V2. Selon l’auteur, générer quatre images 1024×2048 à l’aide de ce modèle ne prend que 7 secondes. Pour mettre cela en perspective, le modèle SDXL nécessiterait 40 secondes relativement lentes pour accomplir la même tâche.

Würstchen V1, introduit précédemment, partage sa base avec SDXL en tant que Latent Modèle de diffusion mais intègre une architecture Unet plus rapide. Alors que la communauté attend avec impatience de plus amples détails sur l'architecture de Würstchen V2, la vitesse améliorée à elle seule en fait un développement remarquable.

Würstchen V2 est un modèle de diffusion qui fonctionne dans un espace latent d'images hautement compressé, réduisant ainsi les coûts de calcul pour la formation et l'inférence de plusieurs ordres de grandeur. Il utilise une conception nouvelle qui permet d'obtenir une compression spatiale de 42x, un exploit jamais vu auparavant. Würstchen utilise une compression en deux étapes, l'étape A et l'étape B, qui décodent les images compressées dans l'espace des pixels. Un troisième modèle, l'étape C, est appris dans un espace latent hautement compressé, nécessitant des fractions du calcul utilisé pour les modèles actuels les plus performants tout en permettant une inférence moins chère et plus rapide.

Würstchen V2 comprend deux étapes de diffusion :

  • Étape A : Cette étape implique une diffusion conditionnée par le texte et compte un milliard de paramètres stupéfiants. L'accélération ici est obtenue grâce à des techniques de compression ultra-élevée. Notamment, au lieu de la taille de code caché de 1x128x128, comme on le voit dans SDXL, Würstchen V4 fonctionne initialement à une résolution de 2x24x24. Cela signifie moins de pixels mais plus de canaux, ce qui entraîne une augmentation significative de la vitesse.
  • Étape B : Il s’agit d’un modèle de diffusion doté de 600 millions de paramètres, chargé de décompresser l’image de 24×24 à une résolution de 128×128.

Le processus est complété par un décodeur avec 20 millions de paramètres qui transforme le code caché en une image rendue.

L'avantage pratique qui ressort immédiatement est la vitesse remarquable du Würstchen V2. Il fonctionne à une vitesse 2 à 2.5 fois plus rapide que SDXL, une avancée remarquable dans le domaine de Génération d'images IA.

Comme pour toute innovation technologique, des compromis peuvent être nécessaires. En termes de qualité d'image, certains experts évoquent une légère perte, même si une comparaison complète et honnête est encore attendue pour fournir des preuves concrètes.

Des exemples de texte en image générés sont ci-dessous :

Lire d'autres sujets connexes :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Layer3 lancera le jeton L3 cet été, allouant 51 % de l'offre totale à la communauté
Marchés Rapport de nouvelles Technologie
Layer3 lancera le jeton L3 cet été, allouant 51 % de l'offre totale à la communauté
10 mai 2024
Dernier avertissement d'Edward Snowden aux développeurs de Bitcoin : « Faites de la confidentialité une priorité au niveau du protocole, sinon vous risquez de la perdre.
Marchés Sécurité Wiki Logiciels Histoires et critiques Technologie
Dernier avertissement d'Edward Snowden aux développeurs de Bitcoin : « Faites de la confidentialité une priorité au niveau du protocole, sinon vous risquez de la perdre.
10 mai 2024
Ethereum Layer 2 Network Mint, alimenté par Optimism, lancera son réseau principal le 15 mai
Rapport de nouvelles Technologie
Ethereum Layer 2 Network Mint, alimenté par Optimism, lancera son réseau principal le 15 mai
10 mai 2024
Les meilleures offres de la semaine, les investissements majeurs dans l'IA, l'informatique, Web3, et Crypto (06-10.04)
Digérer La Brochure Marchés Logiciels Technologie
Les meilleures offres de la semaine, les investissements majeurs dans l'IA, l'informatique, Web3, et Crypto (06-10.04)
10 mai 2024
CRYPTOMERIA LABS PTE. LTD.