FLM-101B: Szuperköltséghatékony 101B léptékű nyelvi modell versenyez a vezető mesterséges intelligencia modellekkel
Röviden
A kínai LLM-et, az LM-101B-t 100 XNUMX dolláros költségvetéssel lehet kiképezni, és olyan jól ismert modellekhez hasonló teljesítményt ér el, mint pl. GPT-3 és GLM-130B.
Kínai kutatók új LLM-et mutattak be, a FLM-101B, egy csak dekóderhez használható LLM, amely figyelemre méltó 101 milliárd paraméterrel büszkélkedhet. Ez a fejlesztés költséghatékony alternatívát kínál mind a kutatás, mind a gyakorlati alkalmazások számára.
Az FLM-101B kivételes teljesítménye a viszonylag szerény költségvetés mellett elért kivételes teljesítménye. Jóllehet köztudott, hogy az LLM-ek nulláról való képzése csillagászati befektetéseket igényelhet, az FLM-101B készítői megmutatták, hogy lehetséges egy 101 milliárd paraméterrel rendelkező modell kiképzése mindössze 100 XNUMX dolláros költségvetésből.
A kísérleti eredmények nem más, mint lenyűgözőek. Az FLM-101B a már bevált és erőforrás-igényes teljesítményszintet mutatott be modellek, mint GPT-3 és GLM-130B. Ez az összehasonlítás rávilágít ebben a költséghatékony modellben rejlő óriási lehetőségekre, különösen az IQ-benchmarkok esetében, amelyek összetett kontextusai nem szerepelnek a képzési adatokban.
Az FLM-101B alkotói nyílt forráskódúvá tették ezt a modellt, ami aláhúzza elkötelezettségüket az AI kutatás és fejlesztés előmozdítása mellett. A kutatók és fejlesztők világszerte hozzáférhetnek és kihasználhatják ezt a 101B méretű LLM-et különféle alkalmazásokhoz, amelyek mind a kínai, mind az angol nyelvet lefedik.
Az FLM-101B modell egyedülálló képzési megközelítést alkalmaz. Gyorsan felhalmozza a tudást egy kisebb, 16 milliárd paraméteres modellből a képzés kezdeti szakaszában, és fokozatosan 101 milliárd paraméterre skáláz. Ez a növekményes megközelítés jelentősen csökkenti a képzési költségeket, így a projektek szélesebb köre számára pénzügyileg megvalósíthatóvá válik.
Az FLM-101B egyik kiemelkedő tulajdonsága, hogy támogatja az ablakméret hatékony bővítését a következtetés során. Ez az xPos forgópozíciós beágyazás használatával érhető el, amely lehetővé teszi a modell számára, hogy szélesebb kontextust kezeljen, javítva alkalmazkodóképességét és használhatóságát.
Az FLM-101B-t egy 24 DGX-A800 GPU-szerverből álló fürtön képezték ki kevesebb mint 26 nap alatt. Ez a lenyűgöző teljesítmény a modell méretezhetőségét és hatékony erőforrás-kihasználását hangsúlyozza. A modell Megatron-LM-ből adaptált képzési kódbázisa hamarosan nyílt forráskódúként is elérhető lesz, értékes betekintést nyújtva az AI közösség számára.
Az FLM-101B készítői elismerik a lehetséges korlátokat, beleértve a modell nem biztonságos példáinak kitettségét a képzési korpuszban az adatkészlet nyitott természete miatt. Ez a figyelmeztetés emlékeztet a felelős AI használat fontosságára és tartalom moderálása.
Míg az FLM-101B figyelemre méltó eredményeket ért el, az alkotók elismerik, hogy vannak még fejlesztendő területek. A modell következtetési folyamata, bár hatékony, még nincs teljesen optimalizálva, ami nagyobb erőforrás-felhasználáshoz és csökkentett sebességhez vezet. Mindazonáltal folynak a tervek a Flash Attention bevezetésére a következtetésben, ezzel a korlátozással.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.