Tudósítást Technológia
12. szeptember 2023.

FLM-101B: Szuperköltséghatékony 101B léptékű nyelvi modell versenyez a vezető mesterséges intelligencia modellekkel

Röviden

A kínai LLM-et, az LM-101B-t 100 XNUMX dolláros költségvetéssel lehet kiképezni, és olyan jól ismert modellekhez hasonló teljesítményt ér el, mint pl. GPT-3 és GLM-130B.

Kínai kutatók új LLM-et mutattak be, a FLM-101B, egy csak dekóderhez használható LLM, amely figyelemre méltó 101 milliárd paraméterrel büszkélkedhet. Ez a fejlesztés költséghatékony alternatívát kínál mind a kutatás, mind a gyakorlati alkalmazások számára.

FLM-101B: Szuper költséghatékony 101B méretű nyelvi modell versenyez a vezető mesterséges intelligencia modellekkel
Kapcsolódó: A mesterséges intelligencia modell képzési költségei 100-ra 500 millió dollárról 2030 millió dollárra emelkednek

Az FLM-101B kivételes teljesítménye a viszonylag szerény költségvetés mellett elért kivételes teljesítménye. Jóllehet köztudott, hogy az LLM-ek nulláról való képzése csillagászati ​​befektetéseket igényelhet, az FLM-101B készítői megmutatták, hogy lehetséges egy 101 milliárd paraméterrel rendelkező modell kiképzése mindössze 100 XNUMX dolláros költségvetésből.

A kísérleti eredmények nem más, mint lenyűgözőek. Az FLM-101B a már bevált és erőforrás-igényes teljesítményszintet mutatott be modellek, mint GPT-3 és GLM-130B. Ez az összehasonlítás rávilágít ebben a költséghatékony modellben rejlő óriási lehetőségekre, különösen az IQ-benchmarkok esetében, amelyek összetett kontextusai nem szerepelnek a képzési adatokban.

Az FLM-101B alkotói nyílt forráskódúvá tették ezt a modellt, ami aláhúzza elkötelezettségüket az AI kutatás és fejlesztés előmozdítása mellett. A kutatók és fejlesztők világszerte hozzáférhetnek és kihasználhatják ezt a 101B méretű LLM-et különféle alkalmazásokhoz, amelyek mind a kínai, mind az angol nyelvet lefedik.

Az FLM-101B modell egyedülálló képzési megközelítést alkalmaz. Gyorsan felhalmozza a tudást egy kisebb, 16 milliárd paraméteres modellből a képzés kezdeti szakaszában, és fokozatosan 101 milliárd paraméterre skáláz. Ez a növekményes megközelítés jelentősen csökkenti a képzési költségeket, így a projektek szélesebb köre számára pénzügyileg megvalósíthatóvá válik.

Az FLM-101B egyik kiemelkedő tulajdonsága, hogy támogatja az ablakméret hatékony bővítését a következtetés során. Ez az xPos forgópozíciós beágyazás használatával érhető el, amely lehetővé teszi a modell számára, hogy szélesebb kontextust kezeljen, javítva alkalmazkodóképességét és használhatóságát.

Az FLM-101B-t egy 24 DGX-A800 GPU-szerverből álló fürtön képezték ki kevesebb mint 26 nap alatt. Ez a lenyűgöző teljesítmény a modell méretezhetőségét és hatékony erőforrás-kihasználását hangsúlyozza. A modell Megatron-LM-ből adaptált képzési kódbázisa hamarosan nyílt forráskódúként is elérhető lesz, értékes betekintést nyújtva az AI közösség számára.

Az FLM-101B készítői elismerik a lehetséges korlátokat, beleértve a modell nem biztonságos példáinak kitettségét a képzési korpuszban az adatkészlet nyitott természete miatt. Ez a figyelmeztetés emlékeztet a felelős AI használat fontosságára és tartalom moderálása.

Míg az FLM-101B figyelemre méltó eredményeket ért el, az alkotók elismerik, hogy vannak még fejlesztendő területek. A modell következtetési folyamata, bár hatékony, még nincs teljesen optimalizálva, ami nagyobb erőforrás-felhasználáshoz és csökkentett sebességhez vezet. Mindazonáltal folynak a tervek a Flash Attention bevezetésére a következtetésben, ezzel a korlátozással.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
A Nexo elindítja a „vadászatot”, hogy a felhasználókat 12 millió dolláros NEXO tokennel jutalmazza az ökoszisztéma iránti elkötelezettségért
piacok Tudósítást Technológia
A Nexo elindítja a „vadászatot”, hogy a felhasználókat 12 millió dolláros NEXO tokennel jutalmazza az ökoszisztéma iránti elkötelezettségért
May 8, 2024
A Revolut Revolut X Exchange Woos Crypto Traders szolgáltatása nulla gyártói díjjal és fejlett elemzéssel
piacok szoftver Történetek és vélemények Technológia
A Revolut Revolut X Exchange Woos Crypto Traders szolgáltatása nulla gyártói díjjal és fejlett elemzéssel
May 8, 2024
A kriptográfiai kereskedési platform, a BitMEX bemutatja az opciós kereskedést 0 díjjal és készpénzes ösztönzőkkel
üzleti piacok Tudósítást
A kriptográfiai kereskedési platform, a BitMEX bemutatja az opciós kereskedést 0 díjjal és készpénzes ösztönzőkkel
May 8, 2024
A Lisk hivatalosan áttér az Ethereum Layer 2-re, és bemutatja a Core v4.0.6-ot
Tudósítást Technológia
A Lisk hivatalosan áttér az Ethereum Layer 2-re, és bemutatja a Core v4.0.6-ot
May 8, 2024
CRYPTOMERIA LABS PTE. KFT.