FLM-101B: un modello linguistico su scala 101B estremamente conveniente che compete con i principali modelli di intelligenza artificiale
In Breve
L'LLM cinese, LM-101B, può essere addestrato con un budget di 100 dollari, ottenendo prestazioni paragonabili a modelli ben noti come GPT-3 e GLM-130B.
I ricercatori cinesi hanno presentato un nuovo LLM, il FLM-101B, un LLM solo decoder che vanta ben 101 miliardi di parametri. Questo sviluppo fornisce un’alternativa economicamente vantaggiosa sia per la ricerca che per le applicazioni pratiche.
Ciò che distingue l'FLM-101B sono le sue prestazioni eccezionali ottenute con un budget relativamente modesto. Sebbene sia risaputo che l'addestramento di LLM da zero può richiedere investimenti astronomici, i creatori di FLM-101B hanno dimostrato che è possibile addestrare un modello con 101 miliardi di parametri utilizzando solo un budget di 100 dollari.
I risultati sperimentali sono a dir poco impressionanti. L'FLM-101B ha dimostrato livelli di prestazioni paragonabili a quelli consolidati e ad alta intensità di risorse modelli come GPT-3 e GLM-130B. Questo confronto evidenzia l’enorme potenziale di questo modello economicamente vantaggioso, in particolare sui parametri di riferimento del QI con contesti complessi non presenti nei dati di addestramento.
Con una mossa che sottolinea il loro impegno nel far avanzare la ricerca e lo sviluppo dell'intelligenza artificiale, i creatori di FLM-101B hanno reso questo modello open source. Ricercatori e sviluppatori di tutto il mondo possono ora accedere e sfruttare questo LLM su scala 101B per varie applicazioni, che abbracciano sia la lingua cinese che quella inglese.
Il modello FLM-101B utilizza un approccio formativo unico. Accumula rapidamente conoscenze da un modello più piccolo da 16 miliardi di parametri nelle fasi iniziali dell'addestramento e scala progressivamente fino a 101 miliardi di parametri. Questo approccio incrementale riduce significativamente i costi di formazione, rendendolo finanziariamente fattibile per una gamma più ampia di progetti.
Una caratteristica distintiva di FLM-101B è il supporto per un'efficiente espansione delle dimensioni della finestra durante l'inferenza. Ciò è ottenuto attraverso l’uso dell’incorporamento della posizione rotante xPos, che consente al modello di gestire un contesto più ampio, migliorandone l’adattabilità e l’usabilità.
FLM-101B è stato addestrato su un cluster di 24 server GPU DGX-A800 in meno di 26 giorni. Questa impresa impressionante sottolinea la scalabilità del modello e l'utilizzo efficiente delle risorse. Il codice base di addestramento del modello, adattato da Megatron-LM, sarà presto disponibile come open source, fornendo preziose informazioni per la comunità dell'intelligenza artificiale.
I creatori di FLM-101B riconoscono potenziali limitazioni, inclusa l'esposizione del modello a esempi non sicuri nel corpus di addestramento a causa della natura aperta del set di dati. Questo avvertimento serve a ricordare l’importanza di un utilizzo responsabile dell’intelligenza artificiale moderazione dei contenuti.
Sebbene l'FLM-101B abbia ottenuto risultati notevoli, i creatori riconoscono aree di miglioramento. Il processo di inferenza del modello, sebbene potente, non è ancora completamente ottimizzato, portando a un maggiore utilizzo delle risorse e a una velocità ridotta. Tuttavia, sono in corso piani per introdurre Flash Attention nell'inferenza, risolvendo questa limitazione.
Per saperne di più sull'intelligenza artificiale:
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Damir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.
Altri articoliDamir è il team leader, il product manager e l'editore di Metaverse Post, che copre argomenti come AI/ML, AGI, LLM, Metaverse e Web3campi correlati. I suoi articoli attirano un vasto pubblico di oltre un milione di utenti ogni mese. Sembra essere un esperto con 10 anni di esperienza in SEO e marketing digitale. Damir è stato menzionato in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e altre pubblicazioni. Viaggia tra Emirati Arabi Uniti, Turchia, Russia e CSI come nomade digitale. Damir ha conseguito una laurea in fisica, che secondo lui gli ha fornito le capacità di pensiero critico necessarie per avere successo nel panorama in continua evoluzione di Internet.