علی بابا مدل زبان متن باز Qwen-7B را معرفی می کند
علی بابا از مدل زبان بزرگ (LLM) منبع باز خود به نام خود رونمایی کرد Qwen-7B، نشان دهنده ورود افتتاحیه آنها به قلمرو LLMهای قابل دسترس برای عموم است. این مدل بر روی 7 میلیارد پارامتر ساخته شده است.
برای زمینه، Qwen-7B با استفاده از 2.2 تریلیون توکن تحت آموزش قرار گرفت. اندازه زمینه تنظیم شده در این مرحله آموزشی 2048 بود، در حالی که کاربران می توانند این اندازه را تا حداکثر 8192 در طول آزمایش افزایش دهند. در مقایسه با، Llama-2، یک LLM دیگر، اندازه زمینه 4096 را ارائه می دهد.
معیارها برای سنجش عملکرد چنین مدل هایی ضروری هستند و در این حوزه، توسعه دهندگان چینی ادعا می کنند که Qwen-7B پیشی گرفته است. Llama-2. یکی از معیارهایی که برجسته است، معیار کدگذاری Human-Eval است که در آن Qwen-7B امتیاز 24.4 را در برابر آن کسب می کند. Llama-2 12.8. با این حال، عاقلانه است که این اعداد را با احتیاط مشاهده کنید. برخی از معیارها نشان میدهند که Qwen-7B نه تنها از مدل پایه عملکرد بهتری دارد LLama-2-7B بلکه همچنین LLaMAنوع -2-13B. با این حال، هنگامی که در برابر نسخه های تصفیه شده از Llama-2، حاشیه تفاوت باریکتر می شود. لازم به ذکر است که متدولوژی آموزشی دقیق Qwen-7B به صراحت توسط توسعه دهندگان آن توضیح داده نشده است.
در عملکرد موازی با LLaMa2-chat، Qwen یک نسخه چت محور به نام Qwen-7B-Chat ارائه کرده است. این مدل برای تعامل با کاربران بهینه شده است و ابزارهای مختلف و رابط های برنامه کاربردی برای افزایش پاسخگویی آن
کسانی که تمایل به مشخصات فنی دارند علاقه مند هستند بدانند که شالوده معماری Qwen-7B شبیه به LLaMA. با این حال، ویژگی های متمایزی وجود دارد که Qwen-7B را متمایز می کند:
- از تعبیه ناپیدا استفاده می کند.
- از تعبیه موقعیتی چرخشی استفاده می شود.
- سوگیری ها مستثنی هستند، به استثنای QKV در توجه.
- RMSNorm بر LayerNorm ترجیح داده می شود.
- به جای ReLU استاندارد، SwiGLU گنجانده شده است.
- توجه فلش برای تسریع روند آموزش معرفی شده است.
- این مدل از 32 لایه، دارای ابعاد تعبیه شده 4096 است و 32 سر توجه را در خود جای می دهد.
از نظر صدور مجوز، Qwen-7B با Llama-2. اجازه استفاده تجاری را می دهد، اما با ذکر حجم کاربر. در حالی که Llama-2 این سقف را 700 میلیون کاربر فعال در ماه تعیین می کند، آستانه Qwen-7B 100 میلیون است.
کسانی که به دنبال بررسی عمیق هستند می توانند به گزارش فنی موجود در GitHub مراجعه کنند. علاوه بر این، نمایشی از Qwen-7Bکه به زبان چینی ارائه شده است، برای کسانی که علاقه مند به کاوش عملی در مورد قابلیت های مدل هستند قابل دسترسی است.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.