Il modello Würstchen V2 conquista Stable Diffusion XL con velocità impressionante per la generazione di immagini ad alta risoluzione
Un tweet recente dell’autore di un articolo dal titolo “Würstchen” (in tedesco “salsiccia”) ha catturato l’attenzione di appassionati ed esperti. Il tweet ha condiviso gli interessanti risultati della generazione di immagini utilizzando il nuovo modello Würstchen V2.
Leggi Anche: Midjourney 5.2 e Stable Diffusion Aggiornamenti SDXL 0.9 per la generazione creativa di testo in immagine |
Würstchen è veloce ed efficiente e genera immagini più velocemente rispetto ai modelli simili Stable Diffusion XL utilizzando meno memoria. Ha inoltre ridotto i costi di formazione, con Würstchen v1 che richiede solo 9,000 ore GPU di formazione con risoluzioni 512×512, rispetto alle 150,000 ore GPU spese su Stable Diffusion 1.4. Questa riduzione di 16 volte dei costi non solo avvantaggia i ricercatori che conducono nuovi esperimenti, ma apre anche la strada a più organizzazioni per addestrare tali modelli. Würstchen v2 ha utilizzato 24,602 ore GPU, rendendolo 6 volte più economico dell'SD1.4, che è stato addestrato solo a 512×512.
Würstchen V2 è un modello di diffusione che funziona in uno spazio latente di immagini altamente compresso, riducendo i costi computazionali per l'addestramento e l'inferenza per ordini di grandezza. Utilizza un design innovativo che raggiunge una compressione spaziale 42x, un'impresa mai vista prima. Würstchen utilizza una compressione a due stadi, Stage A e Stage B, che decodificano le immagini compresse nuovamente nello spazio dei pixel. Un terzo modello, lo Stadio C, viene appreso nello spazio latente altamente compresso, richiedendo frazioni del calcolo utilizzato per gli attuali modelli ad alte prestazioni e consentendo al tempo stesso un'inferenza più economica e veloce.
Würstchen V2 comprende due fasi di diffusione:
- Fase A: Questa fase prevede la diffusione condizionata dal testo e vanta l’incredibile cifra di 1 miliardo di parametri. L'accelerazione qui è ottenuta attraverso tecniche di compressione ultraelevata. In particolare, invece della dimensione del codice nascosto di 128x128x4, come visto in SDXL, Würstchen V2 funziona inizialmente con una risoluzione di 24x24x16. Ciò significa meno pixel ma più canali, con un conseguente aumento significativo della velocità.
- Fase B: Si tratta di un modello di diffusione dotato di 600 milioni di parametri, responsabile della decompressione dell'immagine da 24×24 ad una risoluzione di 128×128.
A completare il processo c'è un decoder con 20 milioni di parametri che trasforma il codice nascosto in un'immagine renderizzata.
Il vantaggio pratico che salta subito all'occhio è la notevole velocità del Würstchen V2. Funziona a una velocità 2-2.5 volte più veloce di SDXL, un progresso degno di nota nel campo dei Generazione di immagini AI.
Come per ogni innovazione tecnologica, possono esserci dei compromessi. In termini di qualità dell'immagine, alcuni esperti suggeriscono una leggera perdita, anche se si attende ancora un confronto completo e onesto per fornire prove concrete.
Di seguito sono riportati alcuni esempi di conversione da testo a immagine generati:
Leggi altri argomenti correlati:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoliDamir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.