Notizie Tecnologia
06 Febbraio 2023

XLM-V: un nuovo metodo di modelli linguistici mascherati multilingue che tenta di affrontare il problema del collo di bottiglia del vocabolario

In Breve

L'articolo solleva il seguente problema: modelli linguistici aumentano i parametri, crescono in profondità, ma il vocabolario è sempre lo stesso in termini di dimensioni.

I ricercatori iniziano ad addestrare un nuovo modello con 1 milione di token dal vocabolario in modo inaspettato.

I ricercatori erano determinati a vedere che tipo di miglioramento avrebbero potuto ottenere con un aumento così significativo dei token.

La questione sollevata dal articolo intitolato "XLM-V: superare il collo di bottiglia del vocabolario nei modelli linguistici mascherati multilingue" è che quando i parametri e la profondità dei modelli linguistici aumentano, le dimensioni del loro vocabolario rimangono invariate. Ad esempio, il modello mT5 ha parametri 13B ma un vocabolario di 250K parole che supporta più di 100 lingue. Pertanto, ogni lingua ha circa 2,500 token univoci, che è ovviamente un numero molto piccolo.

XLM-V: un nuovo metodo di modelli linguistici mascherati multilingue che tenta di affrontare il problema del collo di bottiglia del vocabolario
@ Midjourney / Shav

Quale azione intraprendono gli autori? Iniziano ad addestrare un nuovo modello con 1 milione di gettoni dal vocabolario in modo inaspettato. XLM-R esisteva in precedenza, tuttavia, con questo aggiornamento, diventerà XLM-V. Gli scrittori erano determinati a vedere che tipo di miglioramento avrebbero potuto ottenere con un aumento così significativo dei token.

Articolo correlato: Si prevede che i costi di formazione del modello di intelligenza artificiale aumenteranno da $ 100 milioni a $ 500 milioni entro il 2030

Che dire di XLM-V è nuovo rispetto a XLM-R no?

Che dire di XLM-V è nuovo rispetto a XLM-R no?

Il Miglioramento Modelli multilingue con il metodo Language-Clustered Vocabularies viene utilizzato per costruire vettori di rappresentazione lessicale per ogni lingua come segue: per ogni lingua nell'insieme delle lingue, costituiscono un vettore binario, ogni elemento del quale è una parola specifica nella lingua. Uno indica che la parola è inclusa nel dizionario della lingua (è possibile visualizzare un'immagine con una descrizione grafica negli allegati). Tuttavia, creando un vettore che utilizza la probabilità logaritmica negativa di occorrenza di ciascun lessema, gli autori migliorano il modo in cui vengono creati i riferimenti .

  1. I vettori sono raggruppati dopo. Inoltre, un modello di frase viene addestrato su ogni particolare cluster per fermare il trasferimento del vocabolario tra lingue lessicalmente non correlate.
  2. L'ALP valuta la capacità di un dizionario di rappresentare una lingua specifica.
  3. Utilizzando l'algoritmo per la creazione ULM dizionari è il passaggio successivo. che inizia con un grande dizionario iniziale e lo riduce in modo incrementale fino a quando il numero di token è inferiore a una certa soglia per la dimensione del dizionario.

Per saperne di più sull'intelligenza artificiale:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Altri articoli
Damir Jalalov
Damir Jalalov

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet. 

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
Affari Notizie Tecnologia
Injective unisce le forze con AltLayer per portare la sicurezza del ripristino in inEVM
3 Maggio 2024
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
Mercati Notizie Tecnologia
Masa collabora con Teller per presentare il pool di prestiti MASA e consentire il prestito su base USDC
3 Maggio 2024
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
Mercati Notizie Tecnologia
Velodrome lancia la versione beta di Superchain nelle prossime settimane e si espande su blockchain OP Stack Layer 2
3 Maggio 2024
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
Affari Notizie Tecnologia
CARV annuncia una partnership con Aethir per decentralizzare il proprio livello dati e distribuire premi
3 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.