Naujienų ataskaita Technologija
Rugsėjis 12, 2023

FLM-101B: itin ekonomiškas 101B skalės kalbos modelis konkuruoja su pirmaujančiais dirbtinio intelekto modeliais

Trumpai

Kinijos LLM, LM-101B, gali būti apmokytas naudojant 100 XNUMX USD biudžetą, todėl jų našumas yra panašus į gerai žinomus modelius, tokius kaip GPT-3 ir GLM-130B.

Kinijos mokslininkai pristatė naują LLM FLM-101B, tik dekoderiui skirtas LLM, turintis 101 milijardą parametrų. Ši plėtra yra ekonomiškai efektyvi alternatyva tiek tyrimams, tiek praktiniam pritaikymui.

FLM-101B: itin ekonomiškas 101B skalės kalbos modelis konkuruoja su pirmaujančiais dirbtinio intelekto modeliais
Susiję: Tikimasi, kad dirbtinio intelekto modelio mokymo išlaidos iki 100 m. padidės nuo 500 mln. iki 2030 mln.

FLM-101B išsiskiria išskirtiniu našumu, pasiektu naudojant palyginti kuklų biudžetą. Nors gerai žinoma, kad norint išmokyti LLM nuo nulio, gali prireikti astronominių investicijų, FLM-101B kūrėjai parodė, kad įmanoma parengti modelį su 101 milijardu parametrų naudojant tik 100 XNUMX USD biudžetą.

Eksperimento rezultatai yra tiesiog įspūdingi. FLM-101B našumas yra panašus į nusistovėjusį ir reikalauja daug išteklių modeliai patinka GPT-3 ir GLM-130B. Šis palyginimas išryškina didžiulį šio ekonomiškai efektyvaus modelio potencialą, ypač IQ etalonuose su sudėtingais kontekstais, kurių nėra mokymo duomenyse.

FLM-101B kūrėjai, pabrėždami jų įsipareigojimą tobulinti dirbtinio intelekto tyrimus ir plėtrą, padarė šį modelį atvirojo kodo. Mokslininkai ir kūrėjai visame pasaulyje dabar gali pasiekti ir panaudoti šią 101B masto LLM įvairioms programoms, apimančioms tiek kinų, tiek anglų kalbas.

FLM-101B modelyje naudojamas unikalus mokymo metodas. Jis greitai kaupia žinias iš mažesnio 16 milijardų parametrų modelio pradinėse mokymo stadijose ir palaipsniui padidina iki 101 milijardo parametrų. Šis laipsniškas metodas žymiai sumažina mokymo išlaidas, todėl jis yra finansiškai pagrįstas įvairesniems projektams.

Viena išskirtinių FLM-101B ypatybių yra palaikymas efektyviam lango dydžio išplėtimui darant išvadą. Tai pasiekiama naudojant xPos rotacinės padėties įterpimą, leidžiantį modeliui tvarkyti platesnį kontekstą, pagerinant jo pritaikomumą ir naudojimą.

FLM-101B buvo apmokytas 24 DGX-A800 GPU serverių klasteryje per mažiau nei 26 dienas. Šis įspūdingas žygdarbis pabrėžia modelio mastelį ir efektyvų išteklių panaudojimą. Modelio mokymo kodų bazė, pritaikyta iš Megatron-LM, netrukus bus prieinama kaip atvirojo kodo, suteikianti vertingų įžvalgų AI bendruomenei.

FLM-101B kūrėjai pripažįsta galimus apribojimus, įskaitant modelio poveikį nesaugiems pavyzdžiams mokymo korpuse dėl atviro duomenų rinkinio pobūdžio. Šis įspėjimas primena atsakingo AI naudojimo svarbą turinio moderavimas.

Nors FLM-101B pasiekė puikių rezultatų, kūrėjai pripažįsta sritis, kurias reikia tobulinti. Modelio išvadų procesas, nors ir galingas, dar nėra visiškai optimizuotas, todėl sunaudojama daugiau išteklių ir sumažėja greitis. Tačiau planuojama įdiegti „Flash Attention“ kaip išvadą, kad būtų pašalintas šis apribojimas.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
„Nexo“ inicijuoja „medžioklę“, kad atlygintų vartotojams 12 mln. USD NEXO žetonų už įsitraukimą į savo ekosistemą
rinkos Naujienų ataskaita Technologija
„Nexo“ inicijuoja „medžioklę“, kad atlygintų vartotojams 12 mln. USD NEXO žetonų už įsitraukimą į savo ekosistemą
Gali 8, 2024
Revolut Revolut X Exchange Woos Crypto Traders su nuliniais kūrėjo mokesčiais ir pažangia analize
rinkos programinė įranga Istorijos ir apžvalgos Technologija
Revolut Revolut X Exchange Woos Crypto Traders su nuliniais kūrėjo mokesčiais ir pažangia analize
Gali 8, 2024
Kripto prekybos platforma BitMEX pradeda prekiauti opcionais su 0 mokesčių ir grynųjų pinigų paskatomis
Atsakingas verslas rinkos Naujienų ataskaita
Kripto prekybos platforma BitMEX pradeda prekiauti opcionais su 0 mokesčių ir grynųjų pinigų paskatomis
Gali 8, 2024
Lisk oficialiai pereina prie Ethereum Layer 2 ir pristato Core v4.0.6
Naujienų ataskaita Technologija
Lisk oficialiai pereina prie Ethereum Layer 2 ir pristato Core v4.0.6
Gali 8, 2024
CRYPTOMERIA LABS PTE. LTD.