FLM-101B: ülimalt kulutõhus 101B-skaala keelemudel konkureerib juhtivate tehisintellekti mudelitega
Põgusalt
Hiina LLM-i, LM-101B, saab koolitada 100 XNUMX dollari suuruse eelarvega, saavutades jõudluse, mis on võrreldav tuntud mudelitega, nagu GPT-3 ja GLM-130B.
Hiina teadlased avalikustasid uue LLM-i, FLM-101B, ainult dekoodrile mõeldud LLM, millel on märkimisväärsed 101 miljardit parameetrit. See arendus pakub kulutõhusat alternatiivi nii uurimistööks kui ka praktilisteks rakendusteks.
FLM-101B teeb silma paista selle erakordne jõudlus, mis saavutatakse suhteliselt tagasihoidliku eelarvega. Kuigi on hästi teada, et LLM-ide nullist väljaõpetamine võib nõuda astronoomilisi investeeringuid, on FLM-101B loojad näidanud, et 101 miljardi parameetriga mudelit on võimalik treenida vaid 100 XNUMX dollari suuruse eelarvega.
Eksperimentaalsed tulemused on muljetavaldavad. FLM-101B on näidanud jõudlust, mis on võrreldav väljakujunenud ja ressursimahukaga mudelid nagu GPT-3 ja GLM-130B. See võrdlus toob esile selle kulutõhusa mudeli tohutu potentsiaali, eriti IQ võrdlusnäitajate puhul, mille keerulisi kontekste pole koolitusandmetes.
FLM-101B loojad on muutnud selle mudeli avatud lähtekoodiga mudeliks, mis rõhutab nende pühendumust tehisintellekti uurimis- ja arendustegevuse edendamisele. Teadlased ja arendajad kogu maailmas saavad nüüd juurdepääsu sellele 101B mastaabis LLM-ile ja seda kasutada erinevate rakenduste jaoks, mis hõlmavad nii hiina kui inglise keelt.
Mudel FLM-101B kasutab ainulaadset koolitusmeetodit. See kogub koolituse algfaasis kiiresti teadmisi väiksemast 16 miljardi parameetriga mudelist ja skaleerib järk-järgult kuni 101 miljardi parameetrini. Selline järkjärguline lähenemine vähendab oluliselt koolituskulusid, muutes selle rahaliselt teostatavaks laiema hulga projektide jaoks.
FLM-101B üks silmapaistvamaid omadusi on selle toetus tõhusale akna suuruse laiendamisele järelduste tegemise ajal. See saavutatakse xPos pöörleva asendi manustamise abil, mis võimaldab mudelil käsitleda laiemat konteksti, parandades selle kohanemisvõimet ja kasutatavust.
FLM-101B koolitati 24 DGX-A800 GPU-serveri klastris vähem kui 26 päevaga. See muljetavaldav saavutus rõhutab mudeli mastaapsust ja tõhusat ressursside kasutamist. Megatron-LM-ist kohandatud mudeli koolituskoodibaas on peagi saadaval avatud lähtekoodiga, pakkudes tehisintellekti kogukonnale väärtuslikku teavet.
FLM-101B loojad tunnistavad võimalikke piiranguid, sealhulgas mudeli kokkupuudet ohtlike näidetega koolituskorpuses andmestiku avatud olemuse tõttu. See hoiatus tuletab meelde vastutustundliku tehisintellekti kasutamise tähtsust ja sisu modereerimine.
Kuigi FLM-101B on saavutanud märkimisväärseid tulemusi, tunnistavad loojad valdkondi, mida tuleb parandada. Kuigi mudeli järeldusprotsess on võimas, pole see veel täielikult optimeeritud, mis toob kaasa suurema ressursikasutuse ja kiiruse vähenemise. Siiski on plaanis võtta kasutusele Flash Attention järeldusena, mis käsitleb seda piirangut.
Loe AI kohta lähemalt:
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.
Veel artikleidDamir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.