FLM-101B: itin ekonomiškas 101B skalės kalbos modelis konkuruoja su pirmaujančiais dirbtinio intelekto modeliais
Trumpai
Kinijos LLM, LM-101B, gali būti apmokytas naudojant 100 XNUMX USD biudžetą, todėl jų našumas yra panašus į gerai žinomus modelius, tokius kaip GPT-3 ir GLM-130B.
Kinijos mokslininkai pristatė naują LLM FLM-101B, tik dekoderiui skirtas LLM, turintis 101 milijardą parametrų. Ši plėtra yra ekonomiškai efektyvi alternatyva tiek tyrimams, tiek praktiniam pritaikymui.
FLM-101B išsiskiria išskirtiniu našumu, pasiektu naudojant palyginti kuklų biudžetą. Nors gerai žinoma, kad norint išmokyti LLM nuo nulio, gali prireikti astronominių investicijų, FLM-101B kūrėjai parodė, kad įmanoma parengti modelį su 101 milijardu parametrų naudojant tik 100 XNUMX USD biudžetą.
Eksperimento rezultatai yra tiesiog įspūdingi. FLM-101B našumas yra panašus į nusistovėjusį ir reikalauja daug išteklių modeliai patinka GPT-3 ir GLM-130B. Šis palyginimas išryškina didžiulį šio ekonomiškai efektyvaus modelio potencialą, ypač IQ etalonuose su sudėtingais kontekstais, kurių nėra mokymo duomenyse.
FLM-101B kūrėjai, pabrėždami jų įsipareigojimą tobulinti dirbtinio intelekto tyrimus ir plėtrą, padarė šį modelį atvirojo kodo. Mokslininkai ir kūrėjai visame pasaulyje dabar gali pasiekti ir panaudoti šią 101B masto LLM įvairioms programoms, apimančioms tiek kinų, tiek anglų kalbas.
FLM-101B modelyje naudojamas unikalus mokymo metodas. Jis greitai kaupia žinias iš mažesnio 16 milijardų parametrų modelio pradinėse mokymo stadijose ir palaipsniui padidina iki 101 milijardo parametrų. Šis laipsniškas metodas žymiai sumažina mokymo išlaidas, todėl jis yra finansiškai pagrįstas įvairesniems projektams.
Viena išskirtinių FLM-101B ypatybių yra palaikymas efektyviam lango dydžio išplėtimui darant išvadą. Tai pasiekiama naudojant xPos rotacinės padėties įterpimą, leidžiantį modeliui tvarkyti platesnį kontekstą, pagerinant jo pritaikomumą ir naudojimą.
FLM-101B buvo apmokytas 24 DGX-A800 GPU serverių klasteryje per mažiau nei 26 dienas. Šis įspūdingas žygdarbis pabrėžia modelio mastelį ir efektyvų išteklių panaudojimą. Modelio mokymo kodų bazė, pritaikyta iš Megatron-LM, netrukus bus prieinama kaip atvirojo kodo, suteikianti vertingų įžvalgų AI bendruomenei.
FLM-101B kūrėjai pripažįsta galimus apribojimus, įskaitant modelio poveikį nesaugiems pavyzdžiams mokymo korpuse dėl atviro duomenų rinkinio pobūdžio. Šis įspėjimas primena atsakingo AI naudojimo svarbą turinio moderavimas.
Nors FLM-101B pasiekė puikių rezultatų, kūrėjai pripažįsta sritis, kurias reikia tobulinti. Modelio išvadų procesas, nors ir galingas, dar nėra visiškai optimizuotas, todėl sunaudojama daugiau išteklių ir sumažėja greitis. Tačiau planuojama įdiegti „Flash Attention“ kaip išvadą, kad būtų pašalintas šis apribojimas.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.