Buletin de stiri Tehnologia
12 Septembrie, 2023

FLM-101B: Un model de limbaj la scară 101B super rentabil concurează cu modele AI de vârf

Pe scurt

LLM chinezesc, LM-101B, poate fi instruit cu un buget de 100 USD, obținând performanțe comparabile cu modelele bine-cunoscute precum GPT-3 și GLM-130B.

Cercetătorii chinezi au dezvăluit un nou LLM, the FLM-101B, un LLM exclusiv pentru decodor, cu 101 miliarde de parametri remarcabili. Această dezvoltare oferă o alternativă rentabilă atât pentru cercetare, cât și pentru aplicații practice.

FLM-101B: Un model de limbaj la scară 101B super rentabil concurează cu modele AI de vârf
Related: Se preconizează că costurile de formare a modelelor AI vor crește de la 100 de milioane de dolari la 500 de milioane de dolari până în 2030

Ceea ce face ca FLM-101B să iasă în evidență este performanța sa excepțională atinsă la un buget relativ modest. Deși este binecunoscut faptul că formarea LLM-urilor de la zero poate necesita investiții astronomice, creatorii FLM-101B au arătat că este posibil să antreneze un model cu 101 miliarde de parametri folosind doar un buget de 100 USD.

Rezultatele experimentale sunt absolut impresionante. FLM-101B a demonstrat niveluri de performanță comparabile cu cele stabilite și consumatoare de resurse modele ca GPT-3 și GLM-130B. Această comparație evidențiază potențialul extraordinar al acestui model rentabil, în special pe benchmark-uri IQ cu contexte complexe care nu sunt prezente în datele de antrenament.

Într-o mișcare care subliniază angajamentul lor de a promova cercetarea și dezvoltarea AI, creatorii FLM-101B au făcut acest model open-source. Cercetătorii și dezvoltatorii din întreaga lume pot acum să acceseze și să folosească acest LLM la scară 101B pentru diverse aplicații, care acoperă atât limbile chineză, cât și limba engleză.

Modelul FLM-101B folosește o abordare unică de antrenament. Acumulează rapid cunoștințe de la un model mai mic cu 16 miliarde de parametri în etapele inițiale de antrenament și scala progresiv până la 101 miliarde de parametri. Această abordare incrementală reduce semnificativ costurile de formare, făcând-o fezabilă din punct de vedere financiar pentru o gamă mai largă de proiecte.

O caracteristică remarcabilă a FLM-101B este suportul pentru extinderea eficientă a dimensiunii ferestrei în timpul inferenței. Acest lucru se realizează prin utilizarea încorporarii în poziție rotativă xPos, permițând modelului să se ocupe de un context mai larg, sporindu-și adaptabilitatea și capacitatea de utilizare.

FLM-101B a fost instruit pe un cluster de 24 de servere GPU DGX-A800 în mai puțin de 26 de zile. Această performanță impresionantă subliniază scalabilitatea modelului și utilizarea eficientă a resurselor. Baza de coduri de antrenament a modelului, adaptată de Megatron-LM, va fi disponibilă în curând ca sursă deschisă, oferind informații valoroase pentru comunitatea AI.

Creatorii FLM-101B recunosc potențialele limitări, inclusiv expunerea modelului la exemple nesigure în corpus de instruire, datorită naturii deschise a setului de date. Această avertizare servește ca un memento al importanței utilizării responsabile a AI și moderarea conținutului.

În timp ce FLM-101B a obținut rezultate remarcabile, creatorii recunosc zone de îmbunătățire. Procesul de inferență al modelului, deși puternic, nu este încă pe deplin optimizat, ceea ce duce la o utilizare mai mare a resurselor și la o viteză redusă. Cu toate acestea, sunt în curs de desfășurare planuri de introducere a atenției Flash în inferență, abordând această limitare.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Nexo inițiază „The Hunt” pentru a recompensa utilizatorii cu 12 milioane USD în jetoane NEXO pentru implicarea în ecosistemul său
pieţe Buletin de stiri Tehnologia
Nexo inițiază „The Hunt” pentru a recompensa utilizatorii cu 12 milioane USD în jetoane NEXO pentru implicarea în ecosistemul său
8 Mai, 2024
Schimbul Revolut X de la Revolut atragește comercianții de criptografii cu taxe zero pentru producător și analize avansate
pieţe Software Povești și recenzii Tehnologia
Schimbul Revolut X de la Revolut atragește comercianții de criptografii cu taxe zero pentru producător și analize avansate
8 Mai, 2024
Platforma de tranzacționare criptografică BitMEX lansează tranzacționarea cu opțiuni cu 0 comisioane și stimulente în numerar
Afaceri pieţe Buletin de stiri
Platforma de tranzacționare criptografică BitMEX lansează tranzacționarea cu opțiuni cu 0 comisioane și stimulente în numerar
8 Mai, 2024
Lisk trece oficial la Ethereum Layer 2 și dezvăluie Core v4.0.6
Buletin de stiri Tehnologia
Lisk trece oficial la Ethereum Layer 2 și dezvăluie Core v4.0.6
8 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.