Alibaba Memperkenalkan Model Bahasa Open-Source Qwen-7B
Alibaba telah meluncurkan Large Language Model (LLM) sumber terbuka bernama Qwen-7B, menandai masuknya perdana mereka ke ranah LLM yang dapat diakses publik. Model ini dibangun di atas 7 miliar parameter.
Untuk konteksnya, Qwen-7B menjalani pelatihan menggunakan 2.2 triliun token. Ukuran konteks yang ditetapkan selama fase pelatihan ini adalah 2048, sementara pengguna dapat memperluasnya hingga maksimum 8192 selama pengujian. Dengan perbandingan, Llama-2, LLM lain, menawarkan ukuran konteks 4096.
Tolok ukur sangat penting untuk mengukur kinerja model tersebut, dan dalam domain ini, pengembang Tiongkok menegaskan bahwa Qwen-7B telah melampaui Llama-2. Salah satu metrik yang menonjol adalah tolok ukur pengkodean Human-Eval, di mana Qwen-7B mendapat skor 24.4 dibandingkan Llama-2 12.8. Namun, sebaiknya kita melihat angka-angka ini dengan hati-hati. Beberapa tolok ukur menunjukkan bahwa Qwen-7B tidak hanya mengungguli model dasar LLama-2-7B tetapi juga LLaMAVarian -2-13B. Namun, jika diadu dengan versi yang disempurnakan Llama-2, margin selisihnya semakin sempit. Perlu dicatat bahwa metodologi pelatihan Qwen-7B yang tepat belum dirinci secara eksplisit oleh pengembangnya.
Secara fungsionalitas sejajar dengan LLaMa2-chat, Qwen telah menghadirkan versi chat-centric bernama Qwen-7B-Chat. Model ini dioptimalkan untuk berinteraksi dengan pengguna dan menggabungkan berbagai alat dan Lebah untuk meningkatkan daya tanggapnya.
Mereka yang memiliki kecenderungan terhadap hal-hal teknis akan tertarik untuk mengetahui bahwa fondasi arsitektur Qwen-7B memiliki kemiripan dengan LLaMA. Namun, ada fitur berbeda yang membedakan Qwen-7B:
- Ini mempekerjakan embedding yang tidak terikat.
- Penyisipan posisi putar digunakan.
- Bias dikecualikan, dengan pengecualian QKV dalam perhatian.
- RMSNorm lebih disukai daripada LayerNorm.
- Alih-alih ReLU standar, SwiGLU digabungkan.
- Perhatian kilat telah diperkenalkan untuk mempercepat proses pelatihan.
- Model terdiri dari 32 layer, memiliki dimensi embedding 4096, dan menampung 32 kepala perhatian.
Dari segi perizinan, Qwen-7B sejalan dengan Llama-2. Ini mengizinkan penggunaan komersial, tetapi dengan ketentuan volume pengguna. Ketika Llama-2 menetapkan batas ini pada 700 juta pengguna aktif per bulan, ambang batas Qwen-7B adalah 100 juta.
Mereka yang mencari pemeriksaan mendalam dapat merujuk ke laporan teknis yang tersedia di GitHub. Selain itu, demonstrasi Qwen-7B, disediakan dalam bahasa Cina, dapat diakses oleh mereka yang tertarik dengan eksplorasi praktis dari kemampuan model.
Baca lebih lanjut tentang AI:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.