pasar Laporan berita
08 Agustus 2023

Alibaba Memperkenalkan Model Bahasa Open-Source Qwen-7B

Alibaba telah meluncurkan Large Language Model (LLM) sumber terbuka bernama Qwen-7B, menandai masuknya perdana mereka ke ranah LLM yang dapat diakses publik. Model ini dibangun di atas 7 miliar parameter.

Alibaba Memperkenalkan Model Bahasa Open-Source Qwen-7B

Untuk konteksnya, Qwen-7B menjalani pelatihan menggunakan 2.2 triliun token. Ukuran konteks yang ditetapkan selama fase pelatihan ini adalah 2048, sementara pengguna dapat memperluasnya hingga maksimum 8192 selama pengujian. Dengan perbandingan, Llama-2, LLM lain, menawarkan ukuran konteks 4096.

Tolok ukur sangat penting untuk mengukur kinerja model tersebut, dan dalam domain ini, pengembang Tiongkok menegaskan bahwa Qwen-7B telah melampaui Llama-2. Salah satu metrik yang menonjol adalah tolok ukur pengkodean Human-Eval, di mana Qwen-7B mendapat skor 24.4 dibandingkan Llama-2 12.8. Namun, sebaiknya kita melihat angka-angka ini dengan hati-hati. Beberapa tolok ukur menunjukkan bahwa Qwen-7B tidak hanya mengungguli model dasar LLama-2-7B tetapi juga LLaMAVarian -2-13B. Namun, jika diadu dengan versi yang disempurnakan Llama-2, margin selisihnya semakin sempit. Perlu dicatat bahwa metodologi pelatihan Qwen-7B yang tepat belum dirinci secara eksplisit oleh pengembangnya.

Secara fungsionalitas sejajar dengan LLaMa2-chat, Qwen telah menghadirkan versi chat-centric bernama Qwen-7B-Chat. Model ini dioptimalkan untuk berinteraksi dengan pengguna dan menggabungkan berbagai alat dan Lebah untuk meningkatkan daya tanggapnya.

Mereka yang memiliki kecenderungan terhadap hal-hal teknis akan tertarik untuk mengetahui bahwa fondasi arsitektur Qwen-7B memiliki kemiripan dengan LLaMA. Namun, ada fitur berbeda yang membedakan Qwen-7B:

  1. Ini mempekerjakan embedding yang tidak terikat.
  2. Penyisipan posisi putar digunakan.
  3. Bias dikecualikan, dengan pengecualian QKV dalam perhatian.
  4. RMSNorm lebih disukai daripada LayerNorm.
  5. Alih-alih ReLU standar, SwiGLU digabungkan.
  6. Perhatian kilat telah diperkenalkan untuk mempercepat proses pelatihan.
  7. Model terdiri dari 32 layer, memiliki dimensi embedding 4096, dan menampung 32 kepala perhatian.

Dari segi perizinan, Qwen-7B sejalan dengan Llama-2. Ini mengizinkan penggunaan komersial, tetapi dengan ketentuan volume pengguna. Ketika Llama-2 menetapkan batas ini pada 700 juta pengguna aktif per bulan, ambang batas Qwen-7B adalah 100 juta.

Mereka yang mencari pemeriksaan mendalam dapat merujuk ke laporan teknis yang tersedia di GitHub. Selain itu, demonstrasi Qwen-7B, disediakan dalam bahasa Cina, dapat diakses oleh mereka yang tertarik dengan eksplorasi praktis dari kemampuan model.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Sistem Espresso Berkolaborasi Dengan Polygon Labs Mengembangkan AggLayer Untuk Meningkatkan Interoperabilitas Rollup
Bisnis Laporan berita Teknologi
Sistem Espresso Berkolaborasi Dengan Polygon Labs Mengembangkan AggLayer Untuk Meningkatkan Interoperabilitas Rollup
9 Mei 2024
Protokol Infrastruktur yang didukung ZKP ZKBase Meluncurkan Peta Jalan, Merencanakan Peluncuran Testnet Pada Bulan Mei
Laporan berita Teknologi
Protokol Infrastruktur yang didukung ZKP ZKBase Meluncurkan Peta Jalan, Merencanakan Peluncuran Testnet Pada Bulan Mei
9 Mei 2024
BLOCKCHANCE dan CONF3RENCE Bersatu untuk Perusahaan Terbesar di Jerman Web3 Konferensi di Dortmund
Bisnis pasar Perangkat lunak Cerita dan Ulasan Teknologi
BLOCKCHANCE dan CONF3RENCE Bersatu untuk Perusahaan Terbesar di Jerman Web3 Konferensi di Dortmund
9 Mei 2024
NuLink Diluncurkan Di Bybit Web3 Platform IDO. Tahap Berlangganan Diperpanjang Hingga 13 Mei
pasar Laporan berita Teknologi
NuLink Diluncurkan Di Bybit Web3 Platform IDO. Tahap Berlangganan Diperpanjang Hingga 13 Mei
9 Mei 2024