FLM-101B: En superomkostningseffektiv sprogmodel i 101B-skala konkurrerer med førende AI-modeller
Kort sagt
Den kinesiske LLM, LM-101B, kan trænes på et budget på 100 USD og opnår en ydeevne, der kan sammenlignes med velkendte modeller som f.eks. GPT-3 og GLM-130B.
Kinesiske forskere har afsløret en ny LLM, den FLM-101B, et LLM-kun dekoder, der kan prale af bemærkelsesværdige 101 milliarder parametre. Denne udvikling giver et omkostningseffektivt alternativ til både forskning og praktiske anvendelser.
Det, der får FLM-101B til at skille sig ud, er dens exceptionelle ydeevne opnået på et relativt beskedent budget. Selvom det er velkendt, at træning af LLM'er fra bunden kan kræve astronomiske investeringer, har skaberne af FLM-101B vist, at det er muligt at træne en model med 101 milliarder parametre ved brug af blot et budget på $100.
De eksperimentelle resultater er intet mindre end imponerende. FLM-101B har demonstreret ydeevneniveauer, der kan sammenlignes med etablerede og ressourcekrævende modeller som GPT-3 og GLM-130B. Denne sammenligning fremhæver det enorme potentiale i denne omkostningseffektive model, især på IQ-benchmarks med komplekse sammenhænge, der ikke er til stede i træningsdataene.
I et træk, der understreger deres forpligtelse til at fremme AI-forskning og -udvikling, har skaberne af FLM-101B gjort denne model til open source. Forskere og udviklere over hele verden kan nu få adgang til og udnytte denne 101B-skala LLM til forskellige applikationer, der spænder over både kinesisk og engelsk.
FLM-101B-modellen anvender en unik træningstilgang. Den akkumulerer hurtigt viden fra en mindre model med 16 milliarder parametre i de indledende stadier af træning og skalerer gradvist op til 101 milliarder parametre. Denne trinvise tilgang reducerer uddannelsesomkostningerne markant, hvilket gør det økonomisk muligt for en bredere vifte af projekter.
En iøjnefaldende egenskab ved FLM-101B er dens understøttelse af effektiv vinduesstørrelsesudvidelse under inferens. Dette opnås ved at bruge xPos roterende positionsindlejring, hvilket gør det muligt for modellen at håndtere en bredere sammenhæng, hvilket forbedrer dens tilpasningsevne og brugervenlighed.
FLM-101B blev trænet på en klynge af 24 DGX-A800 GPU-servere på mindre end 26 dage. Denne imponerende bedrift understreger modellens skalerbarhed og effektive ressourceudnyttelse. Modellens træningskodebase, tilpasset fra Megatron-LM, vil snart være tilgængelig som open source, hvilket giver værdifuld indsigt til AI-fællesskabet.
Skaberne af FLM-101B anerkender potentielle begrænsninger, herunder modellens eksponering for usikre eksempler i træningskorpuset på grund af datasættets åbne karakter. Denne advarsel tjener som en påmindelse om vigtigheden af ansvarlig AI-brug og indhold moderering.
Mens FLM-101B har opnået bemærkelsesværdige resultater, anerkender skaberne områder for forbedring. Selv om modellens slutningsproces er kraftfuld, er den endnu ikke fuldt optimeret, hvilket fører til højere ressourceforbrug og reduceret hastighed. Der er dog planer om at introducere Flash Attention i konklusioner, der adresserer denne begrænsning.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.