12 settembre 2023

FLM-101B: un modello linguistico su scala 101B estremamente conveniente che compete con i principali modelli di intelligenza artificiale

Pubblicato: 12 settembre 2023 alle 8:41 Aggiornato: 12 settembre 2023 alle 9:12

Modificato e verificato: 12 settembre 2023 alle 8:41

In Breve

L'LLM cinese, LM-101B, può essere addestrato con un budget di 100 dollari, ottenendo prestazioni paragonabili a modelli ben noti come GPT-3 e GLM-130B.

I ricercatori cinesi hanno presentato un nuovo LLM, il FLM-101B, un LLM solo decoder che vanta ben 101 miliardi di parametri. Questo sviluppo fornisce un’alternativa economicamente vantaggiosa sia per la ricerca che per le applicazioni pratiche.

FLM-101B: un modello linguistico su scala 101B estremamente conveniente che compete con i principali modelli di intelligenza artificiale

Correlato: Si prevede che i costi di formazione del modello di intelligenza artificiale aumenteranno da $ 100 milioni a $ 500 milioni entro il 2030

Ciò che distingue l'FLM-101B sono le sue prestazioni eccezionali ottenute con un budget relativamente modesto. Sebbene sia risaputo che l'addestramento di LLM da zero può richiedere investimenti astronomici, i creatori di FLM-101B hanno dimostrato che è possibile addestrare un modello con 101 miliardi di parametri utilizzando solo un budget di 100 dollari.

I risultati sperimentali sono a dir poco impressionanti. L'FLM-101B ha dimostrato livelli di prestazioni paragonabili a quelli consolidati e ad alta intensità di risorse modelli come GPT-3 e GLM-130B. Questo confronto evidenzia l’enorme potenziale di questo modello economicamente vantaggioso, in particolare sui parametri di riferimento del QI con contesti complessi non presenti nei dati di addestramento.

Con una mossa che sottolinea il loro impegno nel far avanzare la ricerca e lo sviluppo dell'intelligenza artificiale, i creatori di FLM-101B hanno reso questo modello open source. Ricercatori e sviluppatori di tutto il mondo possono ora accedere e sfruttare questo LLM su scala 101B per varie applicazioni, che abbracciano sia la lingua cinese che quella inglese.

Il modello FLM-101B utilizza un approccio formativo unico. Accumula rapidamente conoscenze da un modello più piccolo da 16 miliardi di parametri nelle fasi iniziali dell'addestramento e scala progressivamente fino a 101 miliardi di parametri. Questo approccio incrementale riduce significativamente i costi di formazione, rendendolo finanziariamente fattibile per una gamma più ampia di progetti.

Una caratteristica distintiva di FLM-101B è il supporto per un'efficiente espansione delle dimensioni della finestra durante l'inferenza. Ciò è ottenuto attraverso l’uso dell’incorporamento della posizione rotante xPos, che consente al modello di gestire un contesto più ampio, migliorandone l’adattabilità e l’usabilità.

FLM-101B è stato addestrato su un cluster di 24 server GPU DGX-A800 in meno di 26 giorni. Questa impresa impressionante sottolinea la scalabilità del modello e l'utilizzo efficiente delle risorse. Il codice base di addestramento del modello, adattato da Megatron-LM, sarà presto disponibile come open source, fornendo preziose informazioni per la comunità dell'intelligenza artificiale.

I creatori di FLM-101B riconoscono potenziali limitazioni, inclusa l'esposizione del modello a esempi non sicuri nel corpus di addestramento a causa della natura aperta del set di dati. Questo avvertimento serve a ricordare l’importanza di un utilizzo responsabile dell’intelligenza artificiale moderazione dei contenuti.

Sebbene l'FLM-101B abbia ottenuto risultati notevoli, i creatori riconoscono aree di miglioramento. Il processo di inferenza del modello, sebbene potente, non è ancora completamente ottimizzato, portando a un maggiore utilizzo delle risorse e a una velocità ridotta. Tuttavia, sono in corso piani per introdurre Flash Attention nell'inferenza, risolvendo questa limitazione.

Per saperne di più sull'intelligenza artificiale:

Tag:

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.

Altri articoli

Damir Jalalov

Hot Stories

Side Protocol lancia testnet incentivato e introduce il sistema di punti Insider, consentendo agli utenti di guadagnare punti SIDE

by Alice Davidson

09 Maggio 2024

Notizie

NuLink viene lanciato su Bybit Web3 Piattaforma IDO. La fase di abbonamento si estende fino al 13 maggio

by Alice Davidson

09 Maggio 2024

UXLINK e Binance collaborano a una nuova campagna, offrendo agli utenti 20 milioni di punti UXUY e Airdrop Rewards

by Alice Davidson

09 Maggio 2024

Side Protocol lancia testnet incentivato e introduce il sistema di punti Insider, consentendo agli utenti di guadagnare punti SIDE

by Alice Davidson

09 Maggio 2024

Web3 ed eventi crittografici nel maggio 2024: esplorazione di nuove tecnologie e tendenze emergenti nella blockchain e DeFi

by Viktoria Palchik

09 Maggio 2024

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più