September 12, 2023

FLM-101B: Model Bahasa Skala 101B yang Sangat Kos Berkesan Bersaing dengan Model AI Terkemuka

Diterbitkan: 12 September 2023 pada 8:41 pagi Dikemas kini: 12 September 2023 pada 9:12 pagi

Disunting dan disemak fakta: 12 September 2023 jam 8:41 pagi

Secara ringkas

LLM Cina, LM-101B, boleh dilatih dengan bajet $100K, mencapai prestasi yang setanding dengan model terkenal seperti GPT-3 dan GLM-130B.

Penyelidik China telah melancarkan LLM baharu, iaitu FLM-101B, LLM penyahkod sahaja yang mempunyai 101 bilion parameter yang luar biasa. Perkembangan ini menyediakan alternatif kos efektif untuk kedua-dua penyelidikan dan aplikasi praktikal.

FLM-101B: Model Bahasa Skala 101B yang Sangat Kos Efektif Bersaing dengan Model AI Terkemuka

Berkaitan: Kos Latihan Model AI Dijangka Meningkat daripada $100 Juta kepada $500 Juta menjelang 2030

Apa yang membuatkan FLM-101B menonjol adalah prestasi luar biasa yang dicapai pada bajet yang agak sederhana. Walaupun diketahui umum bahawa latihan LLM dari awal boleh memerlukan pelaburan astronomi, pencipta FLM-101B telah menunjukkan bahawa adalah mungkin untuk melatih model dengan 101 bilion parameter menggunakan hanya bajet $100K.

Keputusan eksperimen tidak kurang mengagumkan. FLM-101B telah menunjukkan tahap prestasi yang setanding dengan yang mantap dan intensif sumber model seperti GPT-3 dan GLM-130B. Perbandingan ini menyerlahkan potensi besar model kos efektif ini, terutamanya pada penanda aras IQ dengan konteks kompleks yang tidak terdapat dalam data latihan.

Dalam langkah yang menggariskan komitmen mereka untuk memajukan penyelidikan dan pembangunan AI, pencipta FLM-101B telah menjadikan model ini sumber terbuka. Penyelidik dan pembangun di seluruh dunia kini boleh mengakses dan memanfaatkan LLM berskala 101B ini untuk pelbagai aplikasi, merangkumi kedua-dua bahasa Cina dan Inggeris.

Model FLM-101B menggunakan pendekatan latihan yang unik. Ia dengan cepat mengumpul pengetahuan daripada model 16 bilion parameter yang lebih kecil pada peringkat awal latihan dan secara berperingkat skala sehingga 101 bilion parameter. Pendekatan tambahan ini mengurangkan kos latihan dengan ketara, menjadikannya layak dari segi kewangan untuk pelbagai projek yang lebih luas.

Satu ciri menonjol FLM-101B ialah sokongannya untuk pengembangan saiz tingkap yang cekap semasa inferens. Ini dicapai melalui penggunaan pembenaman kedudukan berputar xPos, membolehkan model mengendalikan konteks yang lebih luas, meningkatkan kebolehsuaian dan kebolehgunaannya.

FLM-101B telah dilatih pada kelompok 24 pelayan GPU DGX-A800 dalam masa kurang daripada 26 hari. Pencapaian mengagumkan ini menekankan kebolehskalaan model dan penggunaan sumber yang cekap. Pangkalan kod latihan model, yang diadaptasi daripada Megatron-LM, tidak lama lagi akan tersedia sebagai sumber terbuka, memberikan pandangan berharga untuk komuniti AI.

Pencipta FLM-101B mengakui potensi had, termasuk pendedahan model kepada contoh tidak selamat dalam korpus latihan disebabkan sifat terbuka set data. Kaveat ini berfungsi sebagai peringatan tentang kepentingan penggunaan AI yang bertanggungjawab dan kesederhanaan kandungan.

Walaupun FLM-101B telah mencapai hasil yang luar biasa, pencipta mengakui bidang untuk penambahbaikan. Proses inferens model, walaupun berkuasa, masih belum dioptimumkan sepenuhnya, membawa kepada penggunaan sumber yang lebih tinggi dan kelajuan yang dikurangkan. Walau bagaimanapun, rancangan sedang dijalankan untuk memperkenalkan Flash Attention secara inferens, menangani had ini.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov