Laporan berita Teknologi
September 12, 2023

FLM-101B: Model Bahasa Skala 101B yang Super Hemat Biaya Bersaing dengan Model AI Terkemuka

Singkatnya

LLM Tiongkok, LM-101B, dapat dilatih dengan anggaran $100K, mencapai kinerja yang sebanding dengan model terkenal seperti GPT-3 dan GLM-130B.

Peneliti Tiongkok telah meluncurkan LLM baru, the FLM-101B, LLM khusus decoder yang memiliki 101 miliar parameter yang luar biasa. Perkembangan ini memberikan alternatif hemat biaya untuk penelitian dan aplikasi praktis.

FLM-101B: Model Bahasa Skala 101B yang Sangat Hemat Biaya Bersaing dengan Model AI Terkemuka
Terkait: Biaya Pelatihan Model AI Diperkirakan Meningkat dari $100 Juta menjadi $500 Juta pada tahun 2030

Apa yang membuat FLM-101B menonjol adalah kinerja luar biasa yang dicapai dengan anggaran yang relatif sederhana. Meskipun diketahui bahwa melatih LLM dari awal memerlukan investasi yang sangat besar, pembuat FLM-101B telah menunjukkan bahwa melatih model dengan 101 miliar parameter dapat dilakukan hanya dengan anggaran $100K.

Hasil eksperimennya sangat mengesankan. FLM-101B telah menunjukkan tingkat kinerja yang sebanding dengan yang sudah mapan dan intensif sumber daya model seperti GPT-3 dan GLM-130B. Perbandingan ini menyoroti potensi luar biasa dari model hemat biaya ini, khususnya pada tolok ukur IQ dengan konteks kompleks yang tidak terdapat dalam data pelatihan.

Sebagai langkah yang menggarisbawahi komitmen mereka untuk memajukan penelitian dan pengembangan AI, pencipta FLM-101B telah menjadikan model ini sebagai sumber terbuka. Para peneliti dan pengembang di seluruh dunia kini dapat mengakses dan memanfaatkan LLM berskala 101B ini untuk berbagai aplikasi, baik dalam bahasa China maupun Inggris.

Model FLM-101B menggunakan pendekatan pelatihan yang unik. Ini dengan cepat mengumpulkan pengetahuan dari model yang lebih kecil dengan 16 miliar parameter pada tahap awal pelatihan dan secara bertahap menskalakan hingga 101 miliar parameter. Pendekatan tambahan ini secara signifikan mengurangi biaya pelatihan, sehingga layak secara finansial untuk proyek yang lebih luas.

Salah satu fitur menonjol dari FLM-101B adalah dukungannya untuk perluasan ukuran jendela yang efisien selama inferensi. Hal ini dicapai melalui penggunaan penyematan posisi putar xPos, yang memungkinkan model menangani konteks yang lebih luas, sehingga meningkatkan kemampuan beradaptasi dan kegunaannya.

FLM-101B dilatih pada cluster 24 server GPU DGX-A800 dalam waktu kurang dari 26 hari. Prestasi mengesankan ini menggarisbawahi skalabilitas model dan pemanfaatan sumber daya yang efisien. Basis kode pelatihan model ini, yang diadaptasi dari Megatron-LM, akan segera tersedia sebagai sumber terbuka, sehingga memberikan wawasan berharga bagi komunitas AI.

Pembuat FLM-101B menyadari potensi keterbatasan, termasuk paparan model terhadap contoh yang tidak aman dalam korpus pelatihan karena sifat set data yang terbuka. Peringatan ini mengingatkan pentingnya penggunaan AI yang bertanggung jawab dan moderasi konten.

Meskipun FLM-101B telah mencapai hasil yang luar biasa, pembuatnya menyadari masih banyak hal yang perlu ditingkatkan. Proses inferensi model ini, meskipun kuat, belum sepenuhnya dioptimalkan, sehingga menyebabkan penggunaan sumber daya yang lebih tinggi dan kecepatan yang berkurang. Namun, ada rencana untuk memperkenalkan Flash Attention dalam inferensi, untuk mengatasi keterbatasan ini.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
BLOCKCHANCE dan CONF3RENCE Bersatu untuk Perusahaan Terbesar di Jerman Web3 Konferensi di Dortmund
Bisnis pasar Perangkat lunak Cerita dan Ulasan Teknologi
BLOCKCHANCE dan CONF3RENCE Bersatu untuk Perusahaan Terbesar di Jerman Web3 Konferensi di Dortmund
9 Mei 2024
NuLink Diluncurkan Di Bybit Web3 Platform IDO. Tahap Berlangganan Diperpanjang Hingga 13 Mei
pasar Laporan berita Teknologi
NuLink Diluncurkan Di Bybit Web3 Platform IDO. Tahap Berlangganan Diperpanjang Hingga 13 Mei
9 Mei 2024
UXLINK Dan Binance Berkolaborasi Dalam Kampanye Baru, Menawarkan 20 Juta Poin UXUY Dan Airdrop Hadiah
pasar Laporan berita Teknologi
UXLINK Dan Binance Berkolaborasi Dalam Kampanye Baru, Menawarkan 20 Juta Poin UXUY Dan Airdrop Hadiah
9 Mei 2024
Side Protocol Meluncurkan Testnet Berinsentif dan Memperkenalkan Sistem Insider Point, Memungkinkan Pengguna Mendapatkan SIDE Points
pasar Laporan berita Teknologi
Side Protocol Meluncurkan Testnet Berinsentif dan Memperkenalkan Sistem Insider Point, Memungkinkan Pengguna Mendapatkan SIDE Points
9 Mei 2024