Buletin de stiri Tehnologia
12 Septembrie, 2023

FLM-101B: Un model de limbaj la scară 101B super rentabil concurează cu modele AI de vârf

Pe scurt

LLM chinezesc, LM-101B, poate fi instruit cu un buget de 100 USD, obținând performanțe comparabile cu modelele bine-cunoscute precum GPT-3 și GLM-130B.

Cercetătorii chinezi au dezvăluit un nou LLM, the FLM-101B, un LLM exclusiv pentru decodor, cu 101 miliarde de parametri remarcabili. Această dezvoltare oferă o alternativă rentabilă atât pentru cercetare, cât și pentru aplicații practice.

FLM-101B: Un model de limbaj la scară 101B super rentabil concurează cu modele AI de vârf
Related: Se preconizează că costurile de formare a modelelor AI vor crește de la 100 de milioane de dolari la 500 de milioane de dolari până în 2030

Ceea ce face ca FLM-101B să iasă în evidență este performanța sa excepțională atinsă la un buget relativ modest. Deși este binecunoscut faptul că formarea LLM-urilor de la zero poate necesita investiții astronomice, creatorii FLM-101B au arătat că este posibil să antreneze un model cu 101 miliarde de parametri folosind doar un buget de 100 USD.

Rezultatele experimentale sunt absolut impresionante. FLM-101B a demonstrat niveluri de performanță comparabile cu cele stabilite și consumatoare de resurse modele ca GPT-3 și GLM-130B. Această comparație evidențiază potențialul extraordinar al acestui model rentabil, în special pe benchmark-uri IQ cu contexte complexe care nu sunt prezente în datele de antrenament.

Într-o mișcare care subliniază angajamentul lor de a promova cercetarea și dezvoltarea AI, creatorii FLM-101B au făcut acest model open-source. Cercetătorii și dezvoltatorii din întreaga lume pot acum să acceseze și să folosească acest LLM la scară 101B pentru diverse aplicații, care acoperă atât limbile chineză, cât și limba engleză.

Modelul FLM-101B folosește o abordare unică de antrenament. Acumulează rapid cunoștințe de la un model mai mic cu 16 miliarde de parametri în etapele inițiale de antrenament și scala progresiv până la 101 miliarde de parametri. Această abordare incrementală reduce semnificativ costurile de formare, făcând-o fezabilă din punct de vedere financiar pentru o gamă mai largă de proiecte.

O caracteristică remarcabilă a FLM-101B este suportul pentru extinderea eficientă a dimensiunii ferestrei în timpul inferenței. Acest lucru se realizează prin utilizarea încorporarii în poziție rotativă xPos, permițând modelului să se ocupe de un context mai larg, sporindu-și adaptabilitatea și capacitatea de utilizare.

FLM-101B a fost instruit pe un cluster de 24 de servere GPU DGX-A800 în mai puțin de 26 de zile. Această performanță impresionantă subliniază scalabilitatea modelului și utilizarea eficientă a resurselor. Baza de coduri de antrenament a modelului, adaptată de Megatron-LM, va fi disponibilă în curând ca sursă deschisă, oferind informații valoroase pentru comunitatea AI.

Creatorii FLM-101B recunosc potențialele limitări, inclusiv expunerea modelului la exemple nesigure în corpus de instruire, datorită naturii deschise a setului de date. Această avertizare servește ca un memento al importanței utilizării responsabile a AI și moderarea conținutului.

În timp ce FLM-101B a obținut rezultate remarcabile, creatorii recunosc zone de îmbunătățire. Procesul de inferență al modelului, deși puternic, nu este încă pe deplin optimizat, ceea ce duce la o utilizare mai mare a resurselor și la o viteză redusă. Cu toate acestea, sunt în curs de desfășurare planuri de introducere a atenției Flash în inferență, abordând această limitare.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

De la Ripple la Big Green DAO: Cum contribuie proiectele de criptomonede la caritate

Să explorăm inițiativele care valorifică potențialul monedelor digitale pentru cauze caritabile.

Aflați mai multe

AlphaFold 3, Med-Gemini și alții: modul în care AI transformă asistența medicală în 2024

Inteligența artificială se manifestă în diferite moduri în asistența medicală, de la descoperirea de noi corelații genetice până la abilitarea sistemelor chirurgicale robotizate...

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Crypto Exchange Kraken a fost șantajat după raportarea recompenselor de eroare, 3 milioane de dolari retrase din activele trezoreriei
Buletin de stiri Tehnologia
Crypto Exchange Kraken a fost șantajat după raportarea recompenselor de eroare, 3 milioane de dolari retrase din activele trezoreriei
19 Iunie, 2024
Pendle asigură Arbitrum STIP Bridge Grant și intenționează să aloce 1 milion de recompense ARB furnizorilor de lichidități Arbitrum
pieţe Buletin de stiri Tehnologia
Pendle asigură Arbitrum STIP Bridge Grant și intenționează să aloce 1 milion de recompense ARB furnizorilor de lichidități Arbitrum
19 Iunie, 2024
Conectarea rețelelor blockchain: cum ERC-7683 își propune să transforme schimburile și tranzacțiile în lanțuri încrucișate
Opinie pieţe Software Tehnologia
Conectarea rețelelor blockchain: cum ERC-7683 își propune să transforme schimburile și tranzacțiile în lanțuri încrucișate
19 Iunie, 2024
Lido lansează adoptarea timpurie pentru modulul de miză comunitară pentru a-i integra pe stakers solo înainte de lansarea sa generală
Buletin de stiri Tehnologia
Lido lansează adoptarea timpurie pentru modulul de miză comunitară pentru a-i integra pe stakers solo înainte de lansarea sa generală
19 Iunie, 2024
CRYPTOMERIA LABS PTE. LTD.