Novinky Technika
Září 12, 2023

FLM-101B: Super-nákladově efektivní jazykový model v měřítku 101B soutěží s předními modely umělé inteligence

Stručně

Čínský LLM, LM-101B, lze trénovat s rozpočtem 100 XNUMX $ a dosáhnout výkonu srovnatelného se známými modely, jako je GPT-3 a GLM-130B.

Čínští vědci představili nový LLM, the FLM-101B, LLM pouze s dekodérem, který se může pochlubit pozoruhodnými 101 miliardami parametrů. Tento vývoj poskytuje nákladově efektivní alternativu pro výzkum i praktické aplikace.

FLM-101B: Super nákladově efektivní jazykový model v měřítku 101B soutěží s předními modely umělé inteligence
Související: Očekává se, že náklady na školení AI Model do roku 100 vzrostou ze 500 milionů USD na 2030 milionů USD

To, čím FLM-101B vyniká, je jeho výjimečný výkon dosažený s relativně skromným rozpočtem. I když je dobře známo, že trénování LLM od nuly může vyžadovat astronomické investice, tvůrci FLM-101B ukázali, že je možné trénovat model se 101 miliardami parametrů za pouhých 100 tisíc dolarů.

Experimentální výsledky jsou působivé. FLM-101B prokázal výkonnostní úrovně srovnatelné se zavedenými a náročnými na zdroje modely jako GPT-3 a GLM-130B. Toto srovnání zdůrazňuje obrovský potenciál tohoto nákladově efektivního modelu, zejména na IQ benchmarky se složitými kontexty, které nejsou přítomny v tréninkových datech.

Tvůrci FLM-101B udělali z tohoto modelu open-source krok, který podtrhuje jejich odhodlání pokročit ve výzkumu a vývoji AI. Výzkumní pracovníci a vývojáři po celém světě nyní mohou přistupovat k tomuto LLM v měřítku 101B a využívat jej pro různé aplikace, zahrnující jak čínštinu, tak angličtinu.

Model FLM-101B využívá unikátní tréninkový přístup. Rychle shromažďuje znalosti z menšího modelu s 16 miliardami parametrů v počátečních fázích tréninku a postupně škáluje až na 101 miliard parametrů. Tento inkrementální přístup výrazně snižuje náklady na školení, takže je finančně proveditelný pro širší škálu projektů.

Jednou z výjimečných vlastností FLM-101B je jeho podpora pro efektivní rozšiřování velikosti okna během inference. Toho je dosaženo díky použití xPos rotační polohy vestavění, což umožňuje modelu zvládnout širší kontext, zlepšit jeho přizpůsobivost a použitelnost.

FLM-101B byl vyškolen na clusteru 24 serverů DGX-A800 GPU za méně než 26 dní. Tento působivý výkon podtrhuje škálovatelnost modelu a efektivní využití zdrojů. Tréninková kódová základna modelu, upravená z Megatron-LM, bude brzy k dispozici jako open-source a poskytne komunitě AI cenné poznatky.

Tvůrci FLM-101B uznávají potenciální omezení, včetně vystavení modelu nebezpečným příkladům v tréninkovém korpusu kvůli otevřené povaze datové sady. Toto upozornění slouží jako připomínka důležitosti zodpovědného používání AI a moderování obsahu.

Zatímco FLM-101B dosáhl pozoruhodných výsledků, tvůrci uznávají oblasti pro zlepšení. Proces odvození modelu, i když je výkonný, ještě není plně optimalizován, což vede k vyššímu využití zdrojů a nižší rychlosti. Připravují se však plány na zavedení funkce Flash Attention v inferenci, která by toto omezení řešila.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.