FLM-101B: Super-nákladově efektivní jazykový model v měřítku 101B soutěží s předními modely umělé inteligence
Stručně
Čínský LLM, LM-101B, lze trénovat s rozpočtem 100 XNUMX $ a dosáhnout výkonu srovnatelného se známými modely, jako je GPT-3 a GLM-130B.
Čínští vědci představili nový LLM, the FLM-101B, LLM pouze s dekodérem, který se může pochlubit pozoruhodnými 101 miliardami parametrů. Tento vývoj poskytuje nákladově efektivní alternativu pro výzkum i praktické aplikace.
Související: Očekává se, že náklady na školení AI Model do roku 100 vzrostou ze 500 milionů USD na 2030 milionů USD |
To, čím FLM-101B vyniká, je jeho výjimečný výkon dosažený s relativně skromným rozpočtem. I když je dobře známo, že trénování LLM od nuly může vyžadovat astronomické investice, tvůrci FLM-101B ukázali, že je možné trénovat model se 101 miliardami parametrů za pouhých 100 tisíc dolarů.
Experimentální výsledky jsou působivé. FLM-101B prokázal výkonnostní úrovně srovnatelné se zavedenými a náročnými na zdroje modely jako GPT-3 a GLM-130B. Toto srovnání zdůrazňuje obrovský potenciál tohoto nákladově efektivního modelu, zejména na IQ benchmarky se složitými kontexty, které nejsou přítomny v tréninkových datech.
Tvůrci FLM-101B udělali z tohoto modelu open-source krok, který podtrhuje jejich odhodlání pokročit ve výzkumu a vývoji AI. Výzkumní pracovníci a vývojáři po celém světě nyní mohou přistupovat k tomuto LLM v měřítku 101B a využívat jej pro různé aplikace, zahrnující jak čínštinu, tak angličtinu.
Model FLM-101B využívá unikátní tréninkový přístup. Rychle shromažďuje znalosti z menšího modelu s 16 miliardami parametrů v počátečních fázích tréninku a postupně škáluje až na 101 miliard parametrů. Tento inkrementální přístup výrazně snižuje náklady na školení, takže je finančně proveditelný pro širší škálu projektů.
Jednou z výjimečných vlastností FLM-101B je jeho podpora pro efektivní rozšiřování velikosti okna během inference. Toho je dosaženo díky použití xPos rotační polohy vestavění, což umožňuje modelu zvládnout širší kontext, zlepšit jeho přizpůsobivost a použitelnost.
FLM-101B byl vyškolen na clusteru 24 serverů DGX-A800 GPU za méně než 26 dní. Tento působivý výkon podtrhuje škálovatelnost modelu a efektivní využití zdrojů. Tréninková kódová základna modelu, upravená z Megatron-LM, bude brzy k dispozici jako open-source a poskytne komunitě AI cenné poznatky.
Tvůrci FLM-101B uznávají potenciální omezení, včetně vystavení modelu nebezpečným příkladům v tréninkovém korpusu kvůli otevřené povaze datové sady. Toto upozornění slouží jako připomínka důležitosti zodpovědného používání AI a moderování obsahu.
Zatímco FLM-101B dosáhl pozoruhodných výsledků, tvůrci uznávají oblasti pro zlepšení. Proces odvození modelu, i když je výkonný, ještě není plně optimalizován, což vede k vyššímu využití zdrojů a nižší rychlosti. Připravují se však plány na zavedení funkce Flash Attention v inferenci, která by toto omezení řešila.
Přečtěte si více o AI:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.