Rapport de nouvelles Technologie
19 septembre

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution

Un tweet récent par l'auteur d'un article intitulé « Würstchen » (en allemand pour « Saucisse ») a retenu l'attention des passionnés et des experts. Le tweet partageait les résultats fascinants de la génération d’images à l’aide du nouveau modèle Würstchen V2.

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Articles connexes: Midjourney 5.2 et Stable Diffusion Mises à jour SDXL 0.9 pour la génération de création de texte en image

Würstchen est rapide et efficace, générant des images plus rapidement que des modèles comme Stable Diffusion XL tout en utilisant moins de mémoire. Il a également réduit les coûts de formation, Würstchen v1 ne nécessitant que 9,000 512 heures de formation sur GPU à des résolutions de 512 × 150,000, contre XNUMX XNUMX heures de GPU consacrées à Stable Diffusion 1.4. Cette réduction des coûts par 16 profite non seulement aux chercheurs menant de nouvelles expériences, mais ouvre également la porte à davantage d’organisations pour former de tels modèles. Würstchen v2 utilisait 24,602 6 heures GPU, ce qui le rend 1.4 fois moins cher que SD512, qui n'était formé qu'à 512 × XNUMX.

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Une caractéristique remarquable qui a immédiatement attiré l’attention de la communauté de l’IA est la vitesse impressionnante de Würstchen V2. Selon l’auteur, générer quatre images 1024×2048 à l’aide de ce modèle ne prend que 7 secondes. Pour mettre cela en perspective, le modèle SDXL nécessiterait 40 secondes relativement lentes pour accomplir la même tâche.

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Würstchen V1, introduit précédemment, partage sa base avec SDXL en tant que Latent Modèle de diffusion mais intègre une architecture Unet plus rapide. Alors que la communauté attend avec impatience de plus amples détails sur l'architecture de Würstchen V2, la vitesse améliorée à elle seule en fait un développement remarquable.

Würstchen V2 est un modèle de diffusion qui fonctionne dans un espace latent d'images hautement compressé, réduisant ainsi les coûts de calcul pour la formation et l'inférence de plusieurs ordres de grandeur. Il utilise une conception nouvelle qui permet d'obtenir une compression spatiale de 42x, un exploit jamais vu auparavant. Würstchen utilise une compression en deux étapes, l'étape A et l'étape B, qui décodent les images compressées dans l'espace des pixels. Un troisième modèle, l'étape C, est appris dans un espace latent hautement compressé, nécessitant des fractions du calcul utilisé pour les modèles actuels les plus performants tout en permettant une inférence moins chère et plus rapide.

Würstchen V2 comprend deux étapes de diffusion :

  • Étape A : Cette étape implique une diffusion conditionnée par le texte et compte un milliard de paramètres stupéfiants. L'accélération ici est obtenue grâce à des techniques de compression ultra-élevée. Notamment, au lieu de la taille de code caché de 1x128x128, comme on le voit dans SDXL, Würstchen V4 fonctionne initialement à une résolution de 2x24x24. Cela signifie moins de pixels mais plus de canaux, ce qui entraîne une augmentation significative de la vitesse.
  • Étape B : Il s’agit d’un modèle de diffusion doté de 600 millions de paramètres, chargé de décompresser l’image de 24×24 à une résolution de 128×128.

Le processus est complété par un décodeur avec 20 millions de paramètres qui transforme le code caché en une image rendue.

L'avantage pratique qui ressort immédiatement est la vitesse remarquable du Würstchen V2. Il fonctionne à une vitesse 2 à 2.5 fois plus rapide que SDXL, une avancée remarquable dans le domaine de Génération d'images IA.

Comme pour toute innovation technologique, des compromis peuvent être nécessaires. En termes de qualité d'image, certains experts évoquent une légère perte, même si une comparaison complète et honnête est encore attendue pour fournir des preuves concrètes.

Des exemples de texte en image générés sont ci-dessous :

Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution

Lire d'autres sujets connexes :

Clause de non-responsabilité

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Le calme avant la tempête Solana : ce que disent les cartes, les baleines et les signaux en chaîne

Solana a démontré de solides performances, portées par une adoption croissante, un intérêt institutionnel et des partenariats clés, tout en étant confrontée à un potentiel...

Savoir Plus

Cryptomonnaies en avril 2025 : tendances clés, évolutions et perspectives

En avril 2025, l'espace crypto s'est concentré sur le renforcement de l'infrastructure de base, Ethereum se préparant pour le Pectra...

Savoir Plus
Lire la suite
En savoir plus
Istanbul Blockchain Week lance un sommet sur les marchés institutionnels pour façonner l'avenir des actifs numériques dans la finance réglementée.
Lifestyle Rapport de nouvelles Technologie
Istanbul Blockchain Week lance un sommet sur les marchés institutionnels pour façonner l'avenir des actifs numériques dans la finance réglementée.
12 mars
Les plateformes les plus prometteuses pour la tokenisation des obligations, des crédits et des fonds d'investissement en 2026
Top Listes Rapport de nouvelles Technologie
Les plateformes les plus prometteuses pour la tokenisation des obligations, des crédits et des fonds d'investissement en 2026
12 mars
Bitget Wallet va étendre son infrastructure de paiement mondiale en stablecoins grâce à l'intégration de Stellar.
Rapport de nouvelles Technologie
Bitget Wallet va étendre son infrastructure de paiement mondiale en stablecoins grâce à l'intégration de Stellar.
12 mars
7 modèles de cryptomonnaies qui vont bouleverser la finance traditionnelle en 2026
Top Listes Rapport de nouvelles Technologie
7 modèles de cryptomonnaies qui vont bouleverser la finance traditionnelle en 2026
12 mars
CRYPTOMERIA LABS PTE. LTD.