Ulat sa Balita Teknolohiya
Septiyembre 12, 2023

FLM-101B: Isang Super-Cost-Effective na 101B-Scale na Modelo ng Wika ang Nakikipagkumpitensya sa Mga Nangungunang AI Model

Sa madaling sabi

Ang Chinese LLM, LM-101B, ay maaaring sanayin sa isang $100K na badyet, na makamit ang pagganap na maihahambing sa mga kilalang modelo tulad ng GPT-3 at GLM-130B.

Inihayag ng mga mananaliksik ng Tsino ang isang bagong LLM, ang FLM-101B, isang decoder-only LLM na ipinagmamalaki ang isang kahanga-hangang 101 bilyong parameter. Ang pag-unlad na ito ay nagbibigay ng alternatibong cost-effective para sa parehong pananaliksik at praktikal na aplikasyon.

FLM-101B: Isang Super Cost-Effective na 101B-Scale na Modelo ng Wika ang Nakikipagkumpitensya sa Mga Nangungunang AI Model
Nauugnay: Ang Mga Gastos sa Pagsasanay ng Modelo ng AI ay Inaasahang Tataas mula $100 Milyon hanggang $500 Milyon pagdating ng 2030

Ang nagpapatingkad sa FLM-101B ay ang pambihirang pagganap nito na nakamit sa medyo katamtamang badyet. Bagama't kilalang-kilala na ang pagsasanay sa mga LLM mula sa simula ay maaaring mangailangan ng mga astronomical na pamumuhunan, ipinakita ng mga tagalikha ng FLM-101B na posibleng magsanay ng isang modelo na may 101 bilyong parameter gamit lamang ang $100K na badyet.

Ang mga pang-eksperimentong resulta ay kahanga-hanga. Ang FLM-101B ay nagpakita ng mga antas ng pagganap na maihahambing sa itinatag at masinsinang mapagkukunan mga modelo tulad ng GPT-3 at GLM-130B. Itinatampok ng paghahambing na ito ang napakalaking potensyal ng modelong ito na cost-effective, lalo na sa mga benchmark ng IQ na may mga kumplikadong konteksto na wala sa data ng pagsasanay.

Sa isang hakbang na binibigyang-diin ang kanilang pangako sa pagsusulong ng pananaliksik at pagpapaunlad ng AI, ginawa ng mga tagalikha ng FLM-101B na open-source ang modelong ito. Maa-access at magagamit na ngayon ng mga mananaliksik at developer sa buong mundo ang 101B-scale na LLM na ito para sa iba't ibang aplikasyon, na sumasaklaw sa parehong mga wikang Chinese at English.

Ang modelong FLM-101B ay gumagamit ng kakaibang diskarte sa pagsasanay. Mabilis itong nag-iipon ng kaalaman mula sa isang mas maliit na 16-bilyong-parameter na modelo sa mga unang yugto ng pagsasanay at unti-unting nagsusukat ng hanggang 101 bilyong parameter. Ang incremental na diskarte na ito ay makabuluhang binabawasan ang mga gastos sa pagsasanay, na ginagawa itong pinansyal na magagawa para sa mas malawak na hanay ng mga proyekto.

Ang isang natatanging tampok ng FLM-101B ay ang suporta nito para sa mahusay na pagpapalawak ng laki ng window sa panahon ng hinuha. Nakamit ito sa pamamagitan ng paggamit ng xPos rotary position embedding, na nagpapahintulot sa modelo na pangasiwaan ang isang mas malawak na konteksto, pagpapahusay sa kakayahang umangkop at kakayahang magamit nito.

Ang FLM-101B ay sinanay sa isang kumpol ng 24 na DGX-A800 GPU server sa wala pang 26 na araw. Binibigyang-diin ng kahanga-hangang gawaing ito ang scalability at mahusay na paggamit ng mapagkukunan ng modelo. Ang codebase ng pagsasanay ng modelo, na inangkop mula sa Megatron-LM, ay malapit nang maging available bilang open-source, na nagbibigay ng mahahalagang insight para sa komunidad ng AI.

Kinikilala ng mga tagalikha ng FLM-101B ang mga potensyal na limitasyon, kabilang ang pagkakalantad ng modelo sa mga hindi ligtas na halimbawa sa training corpus dahil sa pagiging bukas ng dataset. Ang caveat na ito ay nagsisilbing paalala ng kahalagahan ng responsableng paggamit ng AI at pagmo-moderate ng nilalaman.

Habang nakamit ng FLM-101B ang mga kahanga-hangang resulta, kinikilala ng mga tagalikha ang mga lugar para sa pagpapabuti. Ang proseso ng hinuha ng modelo, habang malakas, ay hindi pa ganap na na-optimize, na humahantong sa mas mataas na paggamit ng mapagkukunan at pinababang bilis. Gayunpaman, ang mga plano ay isinasagawa upang ipakilala ang Flash Attention sa hinuha, na tumutugon sa limitasyong ito.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Hot Stories
Sumali sa Aming Newsletter.
Pinakabagong Balita

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Sinimulan ng Nexo ang 'The Hunt' Upang Gantimpalaan ang mga User ng $12M Sa ​​NEXO Token Para sa Pakikipag-ugnayan sa Ecosystem Nito
markets Ulat sa Balita Teknolohiya
Sinimulan ng Nexo ang 'The Hunt' Upang Gantimpalaan ang mga User ng $12M Sa ​​NEXO Token Para sa Pakikipag-ugnayan sa Ecosystem Nito
Mayo 8, 2024
Ang Revolut X Exchange ng Revolut ay Nakakaakit sa Mga Crypto Trader na may Zero Maker Fees, at Advanced na Analytics
markets software Mga Kuwento at Pagsusuri Teknolohiya
Ang Revolut X Exchange ng Revolut ay Nakakaakit sa Mga Crypto Trader na may Zero Maker Fees, at Advanced na Analytics
Mayo 8, 2024
Crypto Trading Platform BitMEX Debuts Options Trading With 0 Fees At Cash Incentives
Negosyo markets Ulat sa Balita
Crypto Trading Platform BitMEX Debuts Options Trading With 0 Fees At Cash Incentives
Mayo 8, 2024
Opisyal na Naglilipat ang Lisk Sa Ethereum Layer 2 At Inilabas ang Core v4.0.6
Ulat sa Balita Teknolohiya
Opisyal na Naglilipat ang Lisk Sa Ethereum Layer 2 At Inilabas ang Core v4.0.6
Mayo 8, 2024
CRYPTOMERIA LABS PTE. LTD.