Uutisraportti Elektroniikka
Syyskuu 12, 2023

FLM-101B: Erittäin kustannustehokas 101B-asteikkokielimalli kilpailee johtavien tekoälymallien kanssa

Lyhyesti

Kiinalainen LLM, LM-101B, voidaan kouluttaa 100 XNUMX dollarin budjetilla, mikä saavuttaa suorituskyvyn, joka on verrattavissa tunnettuihin malleihin, kuten GPT-3 ja GLM-130B.

Kiinalaiset tutkijat ovat julkistaneet uuden LLM:n, the FLM-101B, vain dekooderille tarkoitettu LLM, jolla on huomattavat 101 miljardia parametria. Tämä kehitys tarjoaa kustannustehokkaan vaihtoehdon sekä tutkimukseen että käytännön sovelluksiin.

FLM-101B: Erittäin kustannustehokas 101B-asteikkokielimalli kilpailee johtavien tekoälymallien kanssa
Related: Tekoälymallin koulutuskustannusten odotetaan nousevan 100 miljoonasta 500 miljoonaan dollariin vuoteen 2030 mennessä

FLM-101B erottuu joukosta sen poikkeuksellisen suorituskykyisenä suhteellisen vaatimattomalla budjetilla. Vaikka tiedetään, että LLM:ien kouluttaminen tyhjästä voi vaatia tähtitieteellisiä investointeja, FLM-101B:n luojat ovat osoittaneet, että on mahdollista kouluttaa malli, jossa on 101 miljardia parametria vain 100 XNUMX dollarin budjetilla.

Kokeilutulokset ovat vain vaikuttavia. FLM-101B on osoittanut suorituskykyä, joka on verrattavissa vakiintuneeseen ja resurssivaltaiseen mallit kuten GPT-3 ja GLM-130B. Tämä vertailu korostaa tämän kustannustehokkaan mallin valtavaa potentiaalia, erityisesti älykkyysosamäärän vertailuarvoissa monimutkaisissa konteksteissa, joita ei ole koulutustiedoissa.

FLM-101B:n luojat ovat tehneet tästä mallista avoimen lähdekoodin, mikä korostaa heidän sitoutumistaan ​​tekoälytutkimuksen ja -kehityksen edistämiseen. Tutkijat ja kehittäjät ympäri maailmaa voivat nyt käyttää ja hyödyntää tätä 101B-mittakaavaista LLM:ää erilaisiin sovelluksiin, jotka kattavat sekä kiinan että englannin kielet.

FLM-101B malli käyttää ainutlaatuista koulutustapaa. Se kerää nopeasti tietoa pienemmästä 16 miljardin parametrin mallista koulutuksen alkuvaiheessa ja skaalaa asteittain 101 miljardiin parametriin. Tämä inkrementaalinen lähestymistapa vähentää merkittävästi koulutuskustannuksia, mikä tekee siitä taloudellisesti kannattavan laajemman valikoiman projekteja.

Yksi FLM-101B:n erottuva ominaisuus on sen tuki tehokkaalle ikkunakoon laajentamiselle päättelyn aikana. Tämä saavutetaan käyttämällä xPos-kiertoasennon upotusta, mikä mahdollistaa mallin käsittelemisen laajemmassa kontekstissa, mikä parantaa sen mukautuvuutta ja käytettävyyttä.

FLM-101B koulutettiin 24 DGX-A800 GPU -palvelimen klusteriin alle 26 päivässä. Tämä vaikuttava saavutus korostaa mallin skaalautuvuutta ja tehokasta resurssien käyttöä. Mallin Megatron-LM:ltä mukautettu koulutuskoodikanta on pian saatavilla avoimena lähdekoodina, mikä tarjoaa arvokasta oivallusta tekoälyyhteisölle.

FLM-101B:n luojat tunnustavat mahdolliset rajoitukset, mukaan lukien mallin altistuminen vaarallisille esimerkeille koulutuskorpuksessa tietojoukon avoimen luonteen vuoksi. Tämä varoitus toimii muistutuksena vastuullisen tekoälyn käytön tärkeydestä ja sisällön maltillisuus.

Vaikka FLM-101B on saavuttanut merkittäviä tuloksia, tekijät tunnustavat parantamisen varaa. Vaikka mallin päättelyprosessi on tehokas, sitä ei ole vielä täysin optimoitu, mikä lisää resurssien käyttöä ja alentaa nopeutta. Suunnitelmissa on kuitenkin ottaa käyttöön Flash Attention johtopäätöksessä tämän rajoituksen korjaamiseksi.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
BLOCKCHANCE ja CONF3RENCE yhdistyvät Saksan suurimpiin Web3 Konferenssi Dortmundissa
Bisnes markkinat Tuotteemme Tarinoita ja arvosteluja Elektroniikka
BLOCKCHANCE ja CONF3RENCE yhdistyvät Saksan suurimpiin Web3 Konferenssi Dortmundissa
Voi 9, 2024
NuLink käynnistyy Bybitissä Web3 IDO-alusta. Tilausvaihe jatkuu 13. toukokuuta asti
markkinat Uutisraportti Elektroniikka
NuLink käynnistyy Bybitissä Web3 IDO-alusta. Tilausvaihe jatkuu 13. toukokuuta asti
Voi 9, 2024
UXLINK ja Binance tekevät yhteistyötä uudessa kampanjassa, joka tarjoaa käyttäjille 20 miljoonaa UXUY-pistettä ja Airdrop Palkkiot
markkinat Uutisraportti Elektroniikka
UXLINK ja Binance tekevät yhteistyötä uudessa kampanjassa, joka tarjoaa käyttäjille 20 miljoonaa UXUY-pistettä ja Airdrop Palkkiot
Voi 9, 2024
Side Protocol käynnistää kannustetun testiverkon ja ottaa käyttöön sisäpiiripistejärjestelmän, jonka avulla käyttäjät voivat ansaita SIDE-pisteitä
markkinat Uutisraportti Elektroniikka
Side Protocol käynnistää kannustetun testiverkon ja ottaa käyttöön sisäpiiripistejärjestelmän, jonka avulla käyttäjät voivat ansaita SIDE-pisteitä
Voi 9, 2024
CRYPTOMERIA LABS PTE. OY.