FLM-101B: Super-nákladovo efektívny jazykový model v mierke 101B konkuruje popredným modelom AI
Stručne
Čínsky LLM, LM-101B, je možné trénovať s rozpočtom 100 XNUMX USD, pričom dosahuje výkon porovnateľný so známymi modelmi ako GPT-3 a GLM-130B.
Čínski vedci predstavili nový LLM, tzv FLM-101B, LLM len s dekodérom, ktorý sa môže pochváliť pozoruhodnými 101 miliardami parametrov. Tento vývoj poskytuje nákladovo efektívnu alternatívu pre výskum aj praktické aplikácie.
To, čím FLM-101B vyniká, je jeho výnimočný výkon dosiahnutý pri relatívne skromnom rozpočte. Aj keď je dobre známe, že trénovanie LLM od nuly môže vyžadovať astronomické investície, tvorcovia FLM-101B ukázali, že je možné trénovať model so 101 miliardami parametrov len s rozpočtom 100 XNUMX dolárov.
Experimentálne výsledky nie sú nič iné ako pôsobivé. FLM-101B preukázal úrovne výkonu porovnateľné so zavedenými a náročnými na zdroje modely ako GPT-3 a GLM-130B. Toto porovnanie poukazuje na obrovský potenciál tohto nákladovo efektívneho modelu, najmä na IQ benchmarky so zložitými kontextami, ktoré nie sú prítomné v tréningových údajoch.
Tvorcovia FLM-101B urobili z tohto modelu open source, čo je krok, ktorý podčiarkuje ich odhodlanie napredovať vo výskume a vývoji AI. Výskumníci a vývojári na celom svete teraz môžu pristupovať k tomuto LLM v rozsahu 101B a využívať ho pre rôzne aplikácie v čínskom aj anglickom jazyku.
Model FLM-101B využíva jedinečný tréningový prístup. Rýchlo akumuluje poznatky z menšieho modelu so 16 miliardami parametrov v počiatočných fázach tréningu a postupne škáluje až na 101 miliárd parametrov. Tento inkrementálny prístup výrazne znižuje náklady na školenia, vďaka čomu je finančne realizovateľný pre širšiu škálu projektov.
Jednou z výnimočných vlastností FLM-101B je jeho podpora pre efektívne rozširovanie veľkosti okna počas odvodzovania. Toto je dosiahnuté použitím xPos rotačného zapustenia polohy, čo umožňuje modelu zvládnuť širší kontext, čím sa zvyšuje jeho prispôsobivosť a použiteľnosť.
FLM-101B bol vyškolený na klastri 24 serverov GPU DGX-A800 za menej ako 26 dní. Tento pôsobivý výkon podčiarkuje škálovateľnosť modelu a efektívne využitie zdrojov. Tréningová kódová základňa modelu, upravená z Megatron-LM, bude čoskoro k dispozícii ako open-source a poskytne komunite AI cenné informácie.
Tvorcovia FLM-101B uznávajú potenciálne obmedzenia, vrátane vystavenia modelu nebezpečným príkladom v tréningovom korpuse kvôli otvorenej povahe súboru údajov. Toto upozornenie slúži ako pripomienka dôležitosti zodpovedného používania AI a moderovanie obsahu.
Zatiaľ čo FLM-101B dosiahol pozoruhodné výsledky, tvorcovia uznávajú oblasti na zlepšenie. Proces odvodzovania modelu, aj keď je výkonný, ešte nie je plne optimalizovaný, čo vedie k vyššej spotrebe zdrojov a zníženej rýchlosti. Pripravujú sa však plány na zavedenie funkcie Flash Attention inferencie, ktorá by riešila toto obmedzenie.
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.