Notizie
20 Marzo 2023

Il nuovo modello di testo in immagine GigaGAN può generare immagini 4K in 3.66 secondi

In Breve

I ricercatori hanno sviluppato un nuovo modello di testo in immagine chiamato GigaGAN in grado di generare immagini 4K a 3.66 secondi.

Si basa sul framework GAN (generative adversarial network), che è un tipo di rete neurale che può imparare a generare dati simili a un set di dati di addestramento. GigaGAN è in grado di generare immagini da 512px a 0.13 secondi, 10 volte più velocemente del precedente modello all'avanguardia, e ha uno spazio latente districato, continuo e controllabile.

Può anche essere utilizzato per addestrare un upsampler efficiente e di qualità superiore.

I ricercatori hanno sviluppato un nuovo modello di testo in immagine chiamato GigaGAN che può generare Immagini 4K in 3.66 secondi. Si tratta di un notevole miglioramento rispetto ai modelli di testo in immagine esistenti, che possono richiedere minuti o addirittura ore per generare una singola immagine.

Il nuovo modello di testo in immagine GigaGAN può generare immagini 4K a 3.66 secondi

GigaGAN si basa sul framework GAN (generative adversarial network), che è un tipo di rete neurale che può imparare a generare dati simili a un set di dati di addestramento. I GAN sono stati utilizzati per generare immagini realistiche di volti, paesaggi e persino immagini di Street View.

Leggi di più: 5+ modelli di intelligenza artificiale text-to-image più attesi del 2023

Il nuovo modello è stato addestrato su un set di dati di 1 miliardo di immagini, che è ordini di grandezza più grande dei set di dati utilizzati per addestrare i precedenti modelli di testo in immagine. Di conseguenza, GigaGAN è in grado di generare immagini da 512 px a 0.13 secondi, che è più di 10 volte più veloce del precedente modello di testo in immagine all'avanguardia.

Inoltre, GigaGAN è dotato di uno spazio latente districato, continuo e controllabile. Ciò significa che GigaGAN può generare immagini con una varietà di stili diversi e che le immagini generate possono essere controllate in una certa misura. Ad esempio, GigaGAN può generare immagini che preservano il layout dell'input di testo, che è importante per le applicazioni, ad esempio, quando si generano immagini di layout di prodotti da descrizioni testuali.

GigaGAN può anche essere utilizzato per addestrare un upsampler efficiente e di qualità superiore. Questo può essere applicato a immagini reali oa output di altri modelli testo-immagine.

Un ramo di codifica del testo, una rete di mappatura dello stile, una rete di sintesi multiscala e un'attenzione stabile e una selezione adattiva del kernel fanno tutti parte del generatore GigaGAN. Gli sviluppatori iniziano il ramo di codifica del testo estraendo incorporamenti di testo con un modello CLIP pre-addestrato e livelli di attenzione appresi T. Analogamente a StileGAN, l'incorporamento viene passato alla rete di mappatura degli stili M, che genera il vettore di stile w. Per generare una piramide di immagini, la rete di sintesi utilizza ora il codice di stile come modulazione e gli incorporamenti di testo come attenzione. Inoltre, gli sviluppatori introducono la selezione del kernel adattiva al campione per selezionare i kernel di convoluzione in modo adattivo in base al condizionamento del testo di input.

Il discriminatore, come il generatore, ha due rami per l'elaborazione dell'immagine e il condizionamento del testo. Il ramo di testo, come il generatore, elabora il testo. Al ramo dell'immagine viene assegnata una piramide dell'immagine e ha il compito di fare previsioni indipendenti per ciascuna scala dell'immagine. Inoltre, le previsioni vengono effettuate a tutte le successive scale del livello di downsampling. Perdite aggiuntive vengono utilizzate anche per incoraggiare una convergenza effettiva.

Come mostrato nella griglia di interpolazione, GigaGAN consente un'interpolazione fluida tra i prompt. I quattro angoli vengono creati utilizzando la stessa z latente ma diversi prompt di testo.

Poiché GigaGAN conserva uno spazio latente districato, gli sviluppatori possono combinare lo stile grossolano di un campione con lo stile raffinato di un altro. GigaGAN può anche controllare lo stile direttamente con messaggi di testo.

Leggi altri articoli correlati:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più

I fondatori di Samourai Wallet sono accusati di aver facilitato 2 miliardi di dollari in affari nel Darknet

L'apprensione dei fondatori di Samourai Wallet rappresenta una notevole battuta d'arresto per il settore, sottolineando la persistente ...

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
AltLayer entra nella seconda fase della sua iniziativa di staking e presenta reALT Token
Mercati Notizie Tecnologia
AltLayer entra nella seconda fase della sua iniziativa di staking e presenta reALT Token
2 Maggio 2024
La catena BNB pubblica il rapporto del primo trimestre del 1, evidenziando una riduzione del 2024% della perdita di valore, mentre BSC TVL aumenta del 55.8%
Mercati Notizie Tecnologia
La catena BNB pubblica il rapporto del primo trimestre del 1, evidenziando una riduzione del 2024% della perdita di valore, mentre BSC TVL aumenta del 55.8%
2 Maggio 2024
Aave Labs presenta la proposta "Aave 2030" che include il lancio del protocollo Aave V4
Affari Notizie Tecnologia
Aave Labs presenta la proposta "Aave 2030" che include il lancio del protocollo Aave V4
2 Maggio 2024
Ankr collabora con la piattaforma blockchain AI Talus Network per sbloccare la liquidità Bitcoin per l'intelligenza artificiale
Affari Notizie Tecnologia
Ankr collabora con la piattaforma blockchain AI Talus Network per sbloccare la liquidità Bitcoin per l'intelligenza artificiale
1 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.