FLM-101B: Erittäin kustannustehokas 101B-asteikkokielimalli kilpailee johtavien tekoälymallien kanssa
Lyhyesti
Kiinalainen LLM, LM-101B, voidaan kouluttaa 100 XNUMX dollarin budjetilla, mikä saavuttaa suorituskyvyn, joka on verrattavissa tunnettuihin malleihin, kuten GPT-3 ja GLM-130B.
Kiinalaiset tutkijat ovat julkistaneet uuden LLM:n, the FLM-101B, vain dekooderille tarkoitettu LLM, jolla on huomattavat 101 miljardia parametria. Tämä kehitys tarjoaa kustannustehokkaan vaihtoehdon sekä tutkimukseen että käytännön sovelluksiin.
FLM-101B erottuu joukosta sen poikkeuksellisen suorituskykyisenä suhteellisen vaatimattomalla budjetilla. Vaikka tiedetään, että LLM:ien kouluttaminen tyhjästä voi vaatia tähtitieteellisiä investointeja, FLM-101B:n luojat ovat osoittaneet, että on mahdollista kouluttaa malli, jossa on 101 miljardia parametria vain 100 XNUMX dollarin budjetilla.
Kokeilutulokset ovat vain vaikuttavia. FLM-101B on osoittanut suorituskykyä, joka on verrattavissa vakiintuneeseen ja resurssivaltaiseen mallit kuten GPT-3 ja GLM-130B. Tämä vertailu korostaa tämän kustannustehokkaan mallin valtavaa potentiaalia, erityisesti älykkyysosamäärän vertailuarvoissa monimutkaisissa konteksteissa, joita ei ole koulutustiedoissa.
FLM-101B:n luojat ovat tehneet tästä mallista avoimen lähdekoodin, mikä korostaa heidän sitoutumistaan tekoälytutkimuksen ja -kehityksen edistämiseen. Tutkijat ja kehittäjät ympäri maailmaa voivat nyt käyttää ja hyödyntää tätä 101B-mittakaavaista LLM:ää erilaisiin sovelluksiin, jotka kattavat sekä kiinan että englannin kielet.
FLM-101B malli käyttää ainutlaatuista koulutustapaa. Se kerää nopeasti tietoa pienemmästä 16 miljardin parametrin mallista koulutuksen alkuvaiheessa ja skaalaa asteittain 101 miljardiin parametriin. Tämä inkrementaalinen lähestymistapa vähentää merkittävästi koulutuskustannuksia, mikä tekee siitä taloudellisesti kannattavan laajemman valikoiman projekteja.
Yksi FLM-101B:n erottuva ominaisuus on sen tuki tehokkaalle ikkunakoon laajentamiselle päättelyn aikana. Tämä saavutetaan käyttämällä xPos-kiertoasennon upotusta, mikä mahdollistaa mallin käsittelemisen laajemmassa kontekstissa, mikä parantaa sen mukautuvuutta ja käytettävyyttä.
FLM-101B koulutettiin 24 DGX-A800 GPU -palvelimen klusteriin alle 26 päivässä. Tämä vaikuttava saavutus korostaa mallin skaalautuvuutta ja tehokasta resurssien käyttöä. Mallin Megatron-LM:ltä mukautettu koulutuskoodikanta on pian saatavilla avoimena lähdekoodina, mikä tarjoaa arvokasta oivallusta tekoälyyhteisölle.
FLM-101B:n luojat tunnustavat mahdolliset rajoitukset, mukaan lukien mallin altistuminen vaarallisille esimerkeille koulutuskorpuksessa tietojoukon avoimen luonteen vuoksi. Tämä varoitus toimii muistutuksena vastuullisen tekoälyn käytön tärkeydestä ja sisällön maltillisuus.
Vaikka FLM-101B on saavuttanut merkittäviä tuloksia, tekijät tunnustavat parantamisen varaa. Vaikka mallin päättelyprosessi on tehokas, sitä ei ole vielä täysin optimoitu, mikä lisää resurssien käyttöä ja alentaa nopeutta. Suunnitelmissa on kuitenkin ottaa käyttöön Flash Attention johtopäätöksessä tämän rajoituksen korjaamiseksi.
Lue lisää tekoälystä:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.