Le modèle Würstchen V2 l’emporte Stable Diffusion XL avec une vitesse impressionnante pour générer des images haute résolution
Un tweet récent par l'auteur d'un article intitulé « Würstchen » (en allemand pour « Saucisse ») a retenu l'attention des passionnés et des experts. Le tweet partageait les résultats fascinants de la génération d’images à l’aide du nouveau modèle Würstchen V2.
Services Connexes: Midjourney 5.2 et Stable Diffusion Mises à jour SDXL 0.9 pour la génération de création de texte en image |
Würstchen est rapide et efficace, générant des images plus rapidement que des modèles comme Stable Diffusion XL tout en utilisant moins de mémoire. Il a également réduit les coûts de formation, Würstchen v1 ne nécessitant que 9,000 512 heures de formation sur GPU à des résolutions de 512 × 150,000, contre XNUMX XNUMX heures de GPU consacrées à Stable Diffusion 1.4. Cette réduction des coûts par 16 profite non seulement aux chercheurs menant de nouvelles expériences, mais ouvre également la porte à davantage d’organisations pour former de tels modèles. Würstchen v2 utilisait 24,602 6 heures GPU, ce qui le rend 1.4 fois moins cher que SD512, qui n'était formé qu'à 512 × XNUMX.
Würstchen V2 est un modèle de diffusion qui fonctionne dans un espace latent d'images hautement compressé, réduisant ainsi les coûts de calcul pour la formation et l'inférence de plusieurs ordres de grandeur. Il utilise une conception nouvelle qui permet d'obtenir une compression spatiale de 42x, un exploit jamais vu auparavant. Würstchen utilise une compression en deux étapes, l'étape A et l'étape B, qui décodent les images compressées dans l'espace des pixels. Un troisième modèle, l'étape C, est appris dans un espace latent hautement compressé, nécessitant des fractions du calcul utilisé pour les modèles actuels les plus performants tout en permettant une inférence moins chère et plus rapide.
Würstchen V2 comprend deux étapes de diffusion :
- Étape A : Cette étape implique une diffusion conditionnée par le texte et compte un milliard de paramètres stupéfiants. L'accélération ici est obtenue grâce à des techniques de compression ultra-élevée. Notamment, au lieu de la taille de code caché de 1x128x128, comme on le voit dans SDXL, Würstchen V4 fonctionne initialement à une résolution de 2x24x24. Cela signifie moins de pixels mais plus de canaux, ce qui entraîne une augmentation significative de la vitesse.
- Étape B : Il s’agit d’un modèle de diffusion doté de 600 millions de paramètres, chargé de décompresser l’image de 24×24 à une résolution de 128×128.
Le processus est complété par un décodeur avec 20 millions de paramètres qui transforme le code caché en une image rendue.
L'avantage pratique qui ressort immédiatement est la vitesse remarquable du Würstchen V2. Il fonctionne à une vitesse 2 à 2.5 fois plus rapide que SDXL, une avancée remarquable dans le domaine de Génération d'images IA.
Comme pour toute innovation technologique, des compromis peuvent être nécessaires. En termes de qualité d'image, certains experts évoquent une légère perte, même si une comparaison complète et honnête est encore attendue pour fournir des preuves concrètes.
Des exemples de texte en image générés sont ci-dessous :
Lire d'autres sujets connexes :
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.