Notizie Tecnologia
23 Novembre 2022

Sber AI ha presentato Kandinsky 2.0, il primo modello text-to-image per la generazione in più di 100 lingue

In Breve

Kandinsky 2.0, il primo modello di diffusione multilingue, è stato creato e addestrato dai ricercatori di Sber AI con l'assistenza dei ricercatori dell'AI Institute of Artificial Intelligence utilizzando il set di dati combinato di 1 miliardo di coppie testo-immagine di Sber AI e SberDevices

La diffusione sta sempre più sostituendo GAN e modelli autoregressivi in ​​una serie di attività di elaborazione delle immagini digitali. Ciò non sorprende perché la diffusione è più facile da apprendere, non richiede una complessa selezione di iperparametri, ottimizzazione min-max e non soffre di instabilità di apprendimento. E, cosa più importante, i modelli di diffusione dimostrano risultati all'avanguardia su quasi tutte le attività generative: generazione di immagini tramite testo, generazione di suoni, video e persino 3D.

Sber AI ha presentato Kandinsky 2.0, il primo modello text-to-image per la generazione in più di 100 lingue
L'immagine creata da Kandinsky AI

Sfortunatamente, la maggior parte del lavoro nel campo del text-to-something si concentra solo su inglese e cinese. Per correggere questa ingiustizia, Sber AI deciso di creare un modello di diffusione multilingue da testo a immagine Kandinsky 2.0, che comprende le query in più di 100 lingue. abbracciare il viso offre già Kandinsky 2.0. I ricercatori di SberAI e SberDevices hanno collaborato con esperti dell'AI Institute of Artificial Intelligence su questo progetto.

Cos'è la diffusione?

Nell'articolo del 2015 Apprendimento non supervisionato profondo utilizzando la termodinamica di non equilibrio, i modelli di diffusione sono stati descritti per la prima volta come l'atto di mescolare una sostanza con conseguente diffusione, che equalizza la distribuzione. Come suggerisce il titolo dell'articolo, si sono avvicinati alla spiegazione dei modelli di diffusione attraverso la struttura della termodinamica.

Nel caso delle immagini, un tale processo potrebbe assomigliare, ad esempio, alla rimozione graduale del rumore gaussiano dall'immagine.

Il documento Modelli di diffusione Battere GANs on Image Synthesis, pubblicato nel 2021, è stato il primo a mostrare la superiorità dei modelli di diffusione rispetto a GANS. Gli autori hanno anche ideato l'approccio di controllo di prima generazione (condizionamento), che hanno chiamato guida del classificatore. Questo metodo crea oggetti che si adattano alla classe desiderata utilizzando gradienti da un classificatore diverso (ad esempio cani). Attraverso il meccanismo Adaptive Group Norm, che prevede la previsione dei coefficienti di normalizzazione, viene effettuato il controllo stesso.

Questo articolo può essere visto come un punto di svolta nel campo dell'IA generativa, portando molti a dedicarsi allo studio della diffusione. Nuovi articoli su testo in video, testo in 3D, Immagine Reintegrazione, generazione audio, diffusione per superrisoluzionee persino la generazione del movimento ha iniziato ad apparire ogni poche settimane.

Diffusione da testo a immagine

Come accennato in precedenza, la riduzione del rumore e l'eliminazione del rumore sono in genere i componenti principali dei processi di diffusione nel contesto delle modalità dell'immagine, quindi UNet e le sue numerose varianti sono spesso utilizzate come architettura fondamentale.

Diffusione da testo a immagine
Diffusione da testo a immagine

È essenziale che questo testo venga preso in considerazione in qualche modo durante la generazione per creare un'immagine basata su di esso. Gli autori del OpenAI un articolo sul modello GLIDE suggerisce di modificare l'approccio di guida senza classificatori per il testo.

L'impiego di codificatori di testo congelati pre-irradiati e il meccanismo di miglioramento della risoluzione a cascata in futuro ha notevolmente migliorato la produzione di testo (Immagine). Si è scoperto che non era necessario addestrare la parte di testo di modelli testo-immagine poiché l'utilizzo del T5-xxl congelato ha portato a una qualità dell'immagine e alla comprensione del testo notevolmente migliorate e ha utilizzato molte meno risorse di formazione.

Gli autori di a Diffusione latente l'articolo ha dimostrato che la componente immagine in realtà non richiede formazione (almeno non completamente). L'apprendimento procederà ancora più rapidamente se usiamo un potente codificatore automatico di immagini (VQ-VAE o KL-VAE) come decodificatore visivo e tentiamo di generare incorporamenti dal suo spazio latente per diffusione piuttosto che dall'immagine stessa. Questa metodologia è anche alla base del recente rilascio Stable Diffusion modello.

Kandinsky 2.0 AI modello

Con alcuni miglioramenti chiave, Kandinsky 2.0 si basa su una tecnica avanzata di diffusione latente (non creiamo immagini, ma piuttosto i loro vettori latenti):

  • Impiegato due codificatori di testo multilingue e concatenato i loro incorporamenti.
  • Aggiunto UNet (1.2 miliardi di parametri).
  • Soglia dinamica della procedura di campionamento.
Kandinsky 2.0 AI modello
Kandinsky 2.0 AI modello

I ricercatori hanno utilizzato contemporaneamente due codificatori multilingue, XLMR-clip e mT5-small, per realizzare il file modello veramente multilingue. Pertanto, oltre all'inglese, al russo, al francese e al tedesco, il modello è in grado di comprendere anche lingue come il mongolo, l'ebraico e il farsi. L'intelligenza artificiale conosce un totale di 101 lingue. Perché si è deciso di codificare il testo utilizzando due modelli contemporaneamente? Poiché XLMR-clip ha visto le immagini e fornisce integrazioni ravvicinate per varie lingue e mT5-small è in grado di comprendere testi complessi, questi modelli hanno caratteristiche diverse ma cruciali. Poiché entrambi i modelli hanno solo un numero ridotto di parametri (560M e 146M), come dimostrato dai nostri test preliminari, si è deciso di utilizzare due encoder contemporaneamente.

Immagini appena generate dal modello AI di Kandinsky 2.0 di seguito:

Come si è svolto il training del modello Kandinsky 2.0?

I supercomputer Christofari sono stati utilizzati per la formazione sulla piattaforma ML Space. Richiedeva 196 schede NVIDIA A100, ciascuna con 80 GB di RAM. Ci sono voluti 14 giorni, o 65,856 ore GPU, per completare la formazione. L'analisi ha richiesto cinque giorni con una risoluzione di 256×256, seguita da sei giorni con una risoluzione di 512×512, quindi altri tre giorni sui dati più puri.

Come dati di addestramento, sono stati combinati molti set di dati che erano stati prefiltrati per filigrane, bassa risoluzione e bassa aderenza alla descrizione del testo misurata dalla metrica del punteggio CLIP.

Generazione multilingue

Kandinsky 2.0 è il primo modello multilingue per la creazione di immagini dalle parole, dandoci la prima possibilità di valutare i cambiamenti linguistici e visivi attraverso le culture linguistiche. Di seguito sono riportati i risultati della traduzione della stessa query in più lingue. Ad esempio, solo uomini bianchi compaiono nei risultati di generazione per la query russa "una persona con un'istruzione superiore", mentre i risultati per la traduzione francese, "Photo d'une personne diplômée de l'enseignement supérieur", sono più diversificati. Vorrei sottolineare che le persone addolorate con un'istruzione superiore sono presenti solo nell'edizione in lingua russa.

Generazione multilingue
Prompt: il rapinatore (1. russo, 2. inglese, 3. hindi)
Generazione multilingue
Prompt: una persona con un'istruzione superiore (1. russo, 2. francese, 3. cinese)
Generazione multilingue
Prompt: un piatto nazionale (1. Russo, 2. Giapponese, 3. Hindi)

Sebbene ci siano ancora moltissime prove con enormi modelli linguistici e diversi metodi del processo di diffusione pianificati, possiamo già affermare con sicurezza che Kandinsky 2.0 è il primo modello di diffusione totalmente multilingue! Sul Sito web di FusionBrain ed Google Cola, potresti vedere esempi dei suoi disegni.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più

I fondatori di Samourai Wallet sono accusati di aver facilitato 2 miliardi di dollari in affari nel Darknet

L'apprensione dei fondatori di Samourai Wallet rappresenta una notevole battuta d'arresto per il settore, sottolineando la persistente ...

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Il membro del Consiglio legislativo di Hong Kong Wu Jiezhuang segnala una causa civile contro lo scambio di criptovalute JPEX
Affari Notizie Tecnologia
Il membro del Consiglio legislativo di Hong Kong Wu Jiezhuang segnala una causa civile contro lo scambio di criptovalute JPEX
2 Maggio 2024
AltLayer entra nella seconda fase della sua iniziativa di staking e presenta reALT Token
Mercati Notizie Tecnologia
AltLayer entra nella seconda fase della sua iniziativa di staking e presenta reALT Token
2 Maggio 2024
La catena BNB pubblica il rapporto del primo trimestre del 1, evidenziando una riduzione del 2024% della perdita di valore, mentre BSC TVL aumenta del 55.8%
Mercati Notizie Tecnologia
La catena BNB pubblica il rapporto del primo trimestre del 1, evidenziando una riduzione del 2024% della perdita di valore, mentre BSC TVL aumenta del 55.8%
2 Maggio 2024
Kaia di Naver e Kakao: la nuova potenza blockchain asiatica pronta a sconvolgere i mercati globali delle criptovalute
Affari Software Storie e recensioni Tecnologia
Kaia di Naver e Kakao: la nuova potenza blockchain asiatica pronta a sconvolgere i mercati globali delle criptovalute
2 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.