Novinová správa Technológia
September 12, 2023

FLM-101B: Super-nákladovo efektívny jazykový model v mierke 101B konkuruje popredným modelom AI

Stručne

Čínsky LLM, LM-101B, je možné trénovať s rozpočtom 100 XNUMX USD, pričom dosahuje výkon porovnateľný so známymi modelmi ako GPT-3 a GLM-130B.

Čínski vedci predstavili nový LLM, tzv FLM-101B, LLM len s dekodérom, ktorý sa môže pochváliť pozoruhodnými 101 miliardami parametrov. Tento vývoj poskytuje nákladovo efektívnu alternatívu pre výskum aj praktické aplikácie.

FLM-101B: Super nákladovo efektívny jazykový model v mierke 101B konkuruje popredným modelom AI
Súvisiace: Očakáva sa, že náklady na školenie modelov AI sa do roku 100 zvýšia zo 500 miliónov USD na 2030 miliónov USD

To, čím FLM-101B vyniká, je jeho výnimočný výkon dosiahnutý pri relatívne skromnom rozpočte. Aj keď je dobre známe, že trénovanie LLM od nuly môže vyžadovať astronomické investície, tvorcovia FLM-101B ukázali, že je možné trénovať model so 101 miliardami parametrov len s rozpočtom 100 XNUMX dolárov.

Experimentálne výsledky nie sú nič iné ako pôsobivé. FLM-101B preukázal úrovne výkonu porovnateľné so zavedenými a náročnými na zdroje modely ako GPT-3 a GLM-130B. Toto porovnanie poukazuje na obrovský potenciál tohto nákladovo efektívneho modelu, najmä na IQ benchmarky so zložitými kontextami, ktoré nie sú prítomné v tréningových údajoch.

Tvorcovia FLM-101B urobili z tohto modelu open source, čo je krok, ktorý podčiarkuje ich odhodlanie napredovať vo výskume a vývoji AI. Výskumníci a vývojári na celom svete teraz môžu pristupovať k tomuto LLM v rozsahu 101B a využívať ho pre rôzne aplikácie v čínskom aj anglickom jazyku.

Model FLM-101B využíva jedinečný tréningový prístup. Rýchlo akumuluje poznatky z menšieho modelu so 16 miliardami parametrov v počiatočných fázach tréningu a postupne škáluje až na 101 miliárd parametrov. Tento inkrementálny prístup výrazne znižuje náklady na školenia, vďaka čomu je finančne realizovateľný pre širšiu škálu projektov.

Jednou z výnimočných vlastností FLM-101B je jeho podpora pre efektívne rozširovanie veľkosti okna počas odvodzovania. Toto je dosiahnuté použitím xPos rotačného zapustenia polohy, čo umožňuje modelu zvládnuť širší kontext, čím sa zvyšuje jeho prispôsobivosť a použiteľnosť.

FLM-101B bol vyškolený na klastri 24 serverov GPU DGX-A800 za menej ako 26 dní. Tento pôsobivý výkon podčiarkuje škálovateľnosť modelu a efektívne využitie zdrojov. Tréningová kódová základňa modelu, upravená z Megatron-LM, bude čoskoro k dispozícii ako open-source a poskytne komunite AI cenné informácie.

Tvorcovia FLM-101B uznávajú potenciálne obmedzenia, vrátane vystavenia modelu nebezpečným príkladom v tréningovom korpuse kvôli otvorenej povahe súboru údajov. Toto upozornenie slúži ako pripomienka dôležitosti zodpovedného používania AI a moderovanie obsahu.

Zatiaľ čo FLM-101B dosiahol pozoruhodné výsledky, tvorcovia uznávajú oblasti na zlepšenie. Proces odvodzovania modelu, aj keď je výkonný, ešte nie je plne optimalizovaný, čo vedie k vyššej spotrebe zdrojov a zníženej rýchlosti. Pripravujú sa však plány na zavedenie funkcie Flash Attention inferencie, ktorá by riešila toto obmedzenie.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
BLOCKCHANCE a CONF3RENCE Spojte sa pre najväčšieho v Nemecku Web3 Konferencia v Dortmunde
firmy trhy Softvér Príbehy a recenzie Technológia
BLOCKCHANCE a CONF3RENCE Spojte sa pre najväčšieho v Nemecku Web3 Konferencia v Dortmunde
Môže 9, 2024
NuLink sa spúšťa na Bybit Web3 Platforma IDO. Fáza predplatného trvá do 13. mája
trhy Novinová správa Technológia
NuLink sa spúšťa na Bybit Web3 Platforma IDO. Fáza predplatného trvá do 13. mája
Môže 9, 2024
UXLINK a Binance spolupracujú na novej kampani, ktorá používateľom ponúka 20 miliónov UXUY bodov a Airdrop Odmeny
trhy Novinová správa Technológia
UXLINK a Binance spolupracujú na novej kampani, ktorá používateľom ponúka 20 miliónov UXUY bodov a Airdrop Odmeny
Môže 9, 2024
Side Protocol spúšťa motivovanú testovaciu sieť a zavádza systém Insider Point System, ktorý používateľom umožňuje získavať SIDE body
trhy Novinová správa Technológia
Side Protocol spúšťa motivovanú testovaciu sieť a zavádza systém Insider Point System, ktorý používateľom umožňuje získavať SIDE body
Môže 9, 2024
CRYPTOMERIA LABS PTE. LTD.