19 settembre 2023

Il modello Würstchen V2 conquista Stable Diffusion XL con velocità impressionante per la generazione di immagini ad alta risoluzione

Pubblicato: 19 settembre 2023 alle 3:50 Aggiornato: 19 settembre 2023 alle 4:39

Modificato e verificato: 19 settembre 2023 alle 3:50

Un tweet recente dell’autore di un articolo dal titolo “Würstchen” (in tedesco “salsiccia”) ha catturato l’attenzione di appassionati ed esperti. Il tweet ha condiviso gli interessanti risultati della generazione di immagini utilizzando il nuovo modello Würstchen V2.

Il modello Würstchen V2 conquista Stable Diffusion XL con velocità impressionante per la generazione di immagini ad alta risoluzione

Würstchen è veloce ed efficiente e genera immagini più velocemente rispetto ai modelli simili Stable Diffusion XL utilizzando meno memoria. Ha inoltre ridotto i costi di formazione, con Würstchen v1 che richiede solo 9,000 ore GPU di formazione con risoluzioni 512×512, rispetto alle 150,000 ore GPU spese su Stable Diffusion 1.4. Questa riduzione di 16 volte dei costi non solo avvantaggia i ricercatori che conducono nuovi esperimenti, ma apre anche la strada a più organizzazioni per addestrare tali modelli. Würstchen v2 ha utilizzato 24,602 ore GPU, rendendolo 6 volte più economico dell'SD1.4, che è stato addestrato solo a 512×512.

Una caratteristica straordinaria che ha immediatamente attirato l'attenzione della comunità AI è l'impressionante velocità di Würstchen V2. Secondo l'autore, generare quattro immagini 1024×2048 utilizzando questo modello richiede solo 7 secondi. Per mettere questo in prospettiva, il modello SDXL richiederebbe 40 secondi relativamente lenti per raggiungere lo stesso compito.

Würstchen V1, introdotto in precedenza, condivide le sue fondamenta con SDXL come Latente Modello di diffusione ma incorpora un'architettura Unet più veloce. Mentre la comunità attende con impazienza ulteriori dettagli sull'architettura di Würstchen V2, la maggiore velocità lo caratterizza già da solo come uno sviluppo degno di nota.

Würstchen V2 è un modello di diffusione che funziona in uno spazio latente di immagini altamente compresso, riducendo i costi computazionali per l'addestramento e l'inferenza per ordini di grandezza. Utilizza un design innovativo che raggiunge una compressione spaziale 42x, un'impresa mai vista prima. Würstchen utilizza una compressione a due stadi, Stage A e Stage B, che decodificano le immagini compresse nuovamente nello spazio dei pixel. Un terzo modello, lo Stadio C, viene appreso nello spazio latente altamente compresso, richiedendo frazioni del calcolo utilizzato per gli attuali modelli ad alte prestazioni e consentendo al tempo stesso un'inferenza più economica e veloce.

Würstchen V2 comprende due fasi di diffusione:

Fase A: Questa fase prevede la diffusione condizionata dal testo e vanta l’incredibile cifra di 1 miliardo di parametri. L'accelerazione qui è ottenuta attraverso tecniche di compressione ultraelevata. In particolare, invece della dimensione del codice nascosto di 128x128x4, come visto in SDXL, Würstchen V2 funziona inizialmente con una risoluzione di 24x24x16. Ciò significa meno pixel ma più canali, con un conseguente aumento significativo della velocità.

Fase B: Si tratta di un modello di diffusione dotato di 600 milioni di parametri, responsabile della decompressione dell'immagine da 24×24 ad una risoluzione di 128×128.

A completare il processo c'è un decoder con 20 milioni di parametri che trasforma il codice nascosto in un'immagine renderizzata.

Il vantaggio pratico che salta subito all'occhio è la notevole velocità del Würstchen V2. Funziona a una velocità 2-2.5 volte più veloce di SDXL, un progresso degno di nota nel campo dei Generazione di immagini AI.

Come per ogni innovazione tecnologica, possono esserci dei compromessi. In termini di qualità dell'immagine, alcuni esperti suggeriscono una leggera perdita, anche se si attende ancora un confronto completo e onesto per fornire prove concrete.

Di seguito sono riportati alcuni esempi di conversione da testo a immagine generati:

Leggi altri argomenti correlati:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov