Rujna 12, 2023

FLM-101B: Super isplativ jezični model 101B natječe se s vodećim AI modelima

Objavljeno: 12. rujna 2023. u 8:41 Ažurirano: 12. rujna 2023. u 9:12

Uređeno i provjereno: 12. rujna 2023. u 8:41

Ukratko

Kineski LLM, LM-101B, može se trenirati s proračunom od 100 tisuća dolara, postižući performanse usporedive s dobro poznatim modelima poput GPT-3 i GLM-130B.

Kineski istraživači predstavili su novi LLM, FLM-101B, LLM samo za dekoder koji se može pohvaliti sa nevjerojatnih 101 milijardu parametara. Ovaj razvoj pruža troškovno učinkovitu alternativu i za istraživanje i za praktične primjene.

FLM-101B: Izuzetno isplativ jezični model 101B mjerila natječe se s vodećim AI modelima

Povezano: Očekuje se da će troškovi obuke modela umjetne inteligencije porasti sa 100 milijuna dolara na 500 milijuna dolara do 2030.

Ono po čemu se FLM-101B ističe je njegova iznimna izvedba postignuta uz relativno skroman proračun. Iako je dobro poznato da obuka LLM-a od nule može zahtijevati astronomska ulaganja, tvorci FLM-101B pokazali su da je moguće obučiti model sa 101 milijardom parametara uz proračun od samo 100 tisuća dolara.

Eksperimentalni rezultati nisu ništa manje nego impresivni. FLM-101B pokazao je razine performansi koje su usporedive s utvrđenim i zahtijevaju velike resurse modeli poput GPT-3 i GLM-130B. Ova usporedba naglašava golemi potencijal ovog ekonomičnog modela, posebno na IQ referentnim vrijednostima sa složenim kontekstima koji nisu prisutni u podacima o obuci.

U potezu koji naglašava njihovu predanost unaprjeđenju istraživanja i razvoja umjetne inteligencije, kreatori FLM-101B učinili su ovaj model otvorenim kodom. Istraživači i programeri diljem svijeta sada mogu pristupiti i iskoristiti ovaj LLM na skali 101B za različite aplikacije, uključujući kineski i engleski jezik.

Model FLM-101B koristi jedinstveni pristup obuci. Brzo prikuplja znanje iz manjeg modela od 16 milijardi parametara u početnim fazama obuke i progresivno skalira do 101 milijarde parametara. Ovaj inkrementalni pristup značajno smanjuje troškove obuke, čineći ga financijski izvedivim za širi raspon projekata.

Jedna istaknuta značajka FLM-101B je njegova podrška za učinkovito proširenje veličine prozora tijekom zaključivanja. To se postiže upotrebom xPos ugradnje rotirajućeg položaja, omogućujući modelu da se nosi sa širim kontekstom, poboljšavajući njegovu prilagodljivost i upotrebljivost.

FLM-101B je obučen na klasteru od 24 DGX-A800 GPU poslužitelja u manje od 26 dana. Ovo impresivno postignuće naglašava skalabilnost modela i učinkovito korištenje resursa. Baza kodova za obuku modela, prilagođena iz Megatron-LM, uskoro će biti dostupna kao open-source, pružajući dragocjene uvide za AI zajednicu.

Tvorci FLM-101B priznaju potencijalna ograničenja, uključujući izloženost modela nesigurnim primjerima u korpusu za obuku zbog otvorene prirode skupa podataka. Ovo upozorenje služi kao podsjetnik na važnost odgovorne upotrebe umjetne inteligencije i moderiranje sadržaja.

Iako je FLM-101B postigao izvanredne rezultate, kreatori priznaju područja za poboljšanje. Proces zaključivanja modela, iako moćan, još nije u potpunosti optimiziran, što dovodi do veće upotrebe resursa i smanjene brzine. Međutim, u tijeku su planovi za uvođenje Flash Attentiona u zaključivanje, rješavajući ovo ograničenje.

Pročitajte više o AI:

Oznake:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.

Više članaka

Damir Yalalov