تقدم Alibaba نموذج لغة Qwen-7B مفتوح المصدر
كشفت Alibaba النقاب عن نموذج اللغة الكبيرة مفتوح المصدر (LLM) المسمى كوين-7ب، بمناسبة دخولهم الافتتاحي إلى عالم LLMs التي يمكن الوصول إليها بشكل عام. تم بناء هذا النموذج على 7 مليار معلمة.
للسياق، خضع Qwen-7B للتدريب باستخدام 2.2 تريليون رمز. كان حجم السياق الذي تم تعيينه خلال مرحلة التدريب هذه هو 2048، بينما يمكن للمستخدمين توسيع هذا إلى حد أقصى يبلغ 8192 أثناء الاختبار. بالمقارنة، Llama-2، وهو LLM آخر، يقدم حجم سياق يبلغ 4096.
تعتبر المعايير المعيارية ضرورية لقياس أداء مثل هذه النماذج، وفي هذا المجال يؤكد المطورون الصينيون أن Qwen-7B قد تفوق على Llama-2. أحد المقاييس البارزة هو معيار ترميز Human-Eval، حيث حصل Qwen-7B على 24.4 نقطة مقابل Llama-2 12.8. ومع ذلك، فمن الحكمة النظر إلى هذه الأرقام بدرجة من الحذر. تشير بعض المعايير إلى أن Qwen-7B يتفوق ليس فقط على النموذج الأساسي لـ LLama-2-7B ولكن أيضًا LLaMA-2-13B البديل. ومع ذلك، عندما يتم مقارنتها بالإصدارات المكررة من Llama-2 يصبح هامش الاختلاف أضيق. تجدر الإشارة إلى أن منهجية التدريب الدقيقة لـ Qwen-7B لم يتم تفصيلها بشكل واضح من قبل مطوريها.
في وظائف موازية ل LLaMa2-chat، قدمت Qwen نسخة تتمحور حول الدردشة باسم Qwen-7B-Chat. تم تحسين هذا النموذج للتفاعل مع المستخدمين ويتضمن أدوات وميزات متنوعة واجهات برمجة التطبيقات لتعزيز استجابتها.
سيكون أولئك الذين لديهم ميل نحو التفاصيل الفنية مهتمين بمعرفة أن الأساس المعماري لـ Qwen-7B يشبه LLaMA. ومع ذلك، هناك ميزات مميزة تميز Qwen-7B:
- يستخدم التضمين غير المقيد.
- يتم استخدام التضمين الموضعي الدوراني.
- يتم استبعاد التحيزات ، باستثناء QKV في الانتباه.
- يفضل RMSNorm على LayerNorm.
- بدلاً من ReLU القياسي ، تم دمج SwiGLU.
- تم تقديم الاهتمام السريع لتسريع عملية التدريب.
- يتكون النموذج من 32 طبقة ، وبُعد تضمين 4096 ، ويتسع لـ 32 رأس انتباه.
فيما يتعلق بالترخيص، يتوافق Qwen-7B مع Llama-2. فهو يسمح بالاستخدام التجاري، ولكن مع اشتراط حجم المستخدم. بينما Llama-2 يحدد هذا الحد الأقصى عند 700 مليون مستخدم نشط شهريًا، وعتبة Qwen-7B هي 100 مليون.
يمكن لأولئك الذين يسعون لإجراء فحص متعمق الرجوع إلى التقرير الفني المتاح على GitHub. بالإضافة إلى ذلك، مظاهرة Qwen-7B، المقدمة باللغة الصينية ، يمكن الوصول إليها للمهتمين بالاستكشاف العملي لقدرات النموذج.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.