September 12, 2023

FLM-101B: Model Bahasa Skala 101B yang Super Hemat Biaya Bersaing dengan Model AI Terkemuka

Diterbitkan: 12 September 2023 pukul 8:41 Diperbarui: 12 September 2023 pukul 9:12

Diedit dan diperiksa faktanya: 12 September 2023 pukul 8

Singkatnya

LLM Tiongkok, LM-101B, dapat dilatih dengan anggaran $100K, mencapai kinerja yang sebanding dengan model terkenal seperti GPT-3 dan GLM-130B.

Peneliti Tiongkok telah meluncurkan LLM baru, the FLM-101B, LLM khusus decoder yang memiliki 101 miliar parameter yang luar biasa. Perkembangan ini memberikan alternatif hemat biaya untuk penelitian dan aplikasi praktis.

FLM-101B: Model Bahasa Skala 101B yang Sangat Hemat Biaya Bersaing dengan Model AI Terkemuka

Terkait: Biaya Pelatihan Model AI Diperkirakan Meningkat dari $100 Juta menjadi $500 Juta pada tahun 2030

Apa yang membuat FLM-101B menonjol adalah kinerja luar biasa yang dicapai dengan anggaran yang relatif sederhana. Meskipun diketahui bahwa melatih LLM dari awal memerlukan investasi yang sangat besar, pembuat FLM-101B telah menunjukkan bahwa melatih model dengan 101 miliar parameter dapat dilakukan hanya dengan anggaran $100K.

Hasil eksperimennya sangat mengesankan. FLM-101B telah menunjukkan tingkat kinerja yang sebanding dengan yang sudah mapan dan intensif sumber daya model seperti GPT-3 dan GLM-130B. Perbandingan ini menyoroti potensi luar biasa dari model hemat biaya ini, khususnya pada tolok ukur IQ dengan konteks kompleks yang tidak terdapat dalam data pelatihan.

Sebagai langkah yang menggarisbawahi komitmen mereka untuk memajukan penelitian dan pengembangan AI, pencipta FLM-101B telah menjadikan model ini sebagai sumber terbuka. Para peneliti dan pengembang di seluruh dunia kini dapat mengakses dan memanfaatkan LLM berskala 101B ini untuk berbagai aplikasi, baik dalam bahasa China maupun Inggris.

Model FLM-101B menggunakan pendekatan pelatihan yang unik. Ini dengan cepat mengumpulkan pengetahuan dari model yang lebih kecil dengan 16 miliar parameter pada tahap awal pelatihan dan secara bertahap menskalakan hingga 101 miliar parameter. Pendekatan tambahan ini secara signifikan mengurangi biaya pelatihan, sehingga layak secara finansial untuk proyek yang lebih luas.

Salah satu fitur menonjol dari FLM-101B adalah dukungannya untuk perluasan ukuran jendela yang efisien selama inferensi. Hal ini dicapai melalui penggunaan penyematan posisi putar xPos, yang memungkinkan model menangani konteks yang lebih luas, sehingga meningkatkan kemampuan beradaptasi dan kegunaannya.

FLM-101B dilatih pada cluster 24 server GPU DGX-A800 dalam waktu kurang dari 26 hari. Prestasi mengesankan ini menggarisbawahi skalabilitas model dan pemanfaatan sumber daya yang efisien. Basis kode pelatihan model ini, yang diadaptasi dari Megatron-LM, akan segera tersedia sebagai sumber terbuka, sehingga memberikan wawasan berharga bagi komunitas AI.

Pembuat FLM-101B menyadari potensi keterbatasan, termasuk paparan model terhadap contoh yang tidak aman dalam korpus pelatihan karena sifat set data yang terbuka. Peringatan ini mengingatkan pentingnya penggunaan AI yang bertanggung jawab dan moderasi konten.

Meskipun FLM-101B telah mencapai hasil yang luar biasa, pembuatnya menyadari masih banyak hal yang perlu ditingkatkan. Proses inferensi model ini, meskipun kuat, belum sepenuhnya dioptimalkan, sehingga menyebabkan penggunaan sumber daya yang lebih tinggi dan kecepatan yang berkurang. Namun, ada rencana untuk memperkenalkan Flash Attention dalam inferensi, untuk mengatasi keterbatasan ini.

Baca lebih lanjut tentang AI:

Tags:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.

lebih artikel

Damir Yalalov