September 12, 2023

FLM-101B: En superkostnadseffektiv språkmodell i 101B-skala som konkurrerar med ledande AI-modeller

Publicerad: 12 september 2023 kl. 8 Uppdaterad: 41 september 12 kl. 2023

Redigerad och faktagranskad: 12 september 2023 kl. 8:41

I korthet

Den kinesiska LLM, LM-101B, kan tränas på en budget på 100 XNUMX USD och uppnå prestanda jämförbar med välkända modeller som GPT-3 och GLM-130B.

Kinesiska forskare har avslöjat en ny LLM, den FLM-101B, en LLM som endast är avsedd för avkodare med anmärkningsvärda 101 miljarder parametrar. Denna utveckling ger ett kostnadseffektivt alternativ för både forskning och praktiska tillämpningar.

FLM-101B: En superkostnadseffektiv språkmodell i 101B-skala som konkurrerar med ledande AI-modeller

Relaterat: AI-modellutbildningskostnaderna förväntas stiga från 100 miljoner dollar till 500 miljoner dollar fram till 2030

Det som gör att FLM-101B sticker ut är dess exceptionella prestanda som uppnåtts på en relativt blygsam budget. Även om det är välkänt att utbildning av LLM från grunden kan kräva astronomiska investeringar, har skaparna av FLM-101B visat att det är möjligt att träna en modell med 101 miljarder parametrar med bara en budget på 100 XNUMX USD.

De experimentella resultaten är inget mindre än imponerande. FLM-101B har visat prestandanivåer jämförbara med etablerade och resurskrävande modeller som GPT-3 och GLM-130B. Den här jämförelsen belyser den enorma potentialen hos denna kostnadseffektiva modell, särskilt på IQ-riktmärken med komplexa sammanhang som inte finns i träningsdata.

I ett drag som understryker deras engagemang för att främja forskning och utveckling av AI, har skaparna av FLM-101B gjort denna modell öppen källkod. Forskare och utvecklare över hela världen kan nu få tillgång till och utnyttja denna 101B-skala LLM för olika applikationer som spänner över både kinesiska och engelska språken.

FLM-101B-modellen använder sig av en unik träningsmetod. Den samlar snabbt kunskap från en mindre modell med 16 miljarder parametrar i de inledande stadierna av utbildningen och skalar gradvis upp till 101 miljarder parametrar. Detta inkrementella tillvägagångssätt minskar utbildningskostnaderna avsevärt, vilket gör det ekonomiskt genomförbart för ett bredare utbud av projekt.

En utmärkande egenskap hos FLM-101B är dess stöd för effektiv fönsterstorleksexpansion under slutledning. Detta uppnås genom användning av xPos roterande positionsinbäddning, vilket gör att modellen kan hantera ett bredare sammanhang, vilket förbättrar dess anpassningsbarhet och användbarhet.

FLM-101B tränades på ett kluster av 24 DGX-A800 GPU-servrar på mindre än 26 dagar. Denna imponerande bedrift understryker modellens skalbarhet och effektiva resursutnyttjande. Modellens träningskodbas, anpassad från Megatron-LM, kommer snart att finnas tillgänglig som öppen källkod, vilket ger värdefulla insikter för AI-gemenskapen.

Skaparna av FLM-101B erkänner potentiella begränsningar, inklusive modellens exponering för osäkra exempel i utbildningskorpusen på grund av datauppsättningens öppna natur. Denna varning fungerar som en påminnelse om vikten av ansvarsfull AI-användning och innehållsmått.

Även om FLM-101B har uppnått anmärkningsvärda resultat, erkänner skaparna områden för förbättring. Modellens slutledningsprocess, även om den är kraftfull, är ännu inte helt optimerad, vilket leder till högre resursanvändning och minskad hastighet. Planer pågår dock för att införa Flash Attention i slutledning, vilket tar itu med denna begränsning.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov