Qwen, Kodlama, Akıl Yürütme ve Çok Modlu Yapay Zeka Performansını Geliştirmek İçin Yeni Bir Görsel-Dil Modeli Sunuyor
Kısaca
Qwen ekibi, çok modlu performans, pekiştirmeli öğrenme ve eğitim verimliliğinde önemli ilerlemeler sunan ve daha yetenekli, genel amaçlı yapay zeka ajanlarına yönelik daha geniş bir çabanın parçası olan açık ağırlıklı Qwen3.5-397B-A17B modelini piyasaya sürdü.
Alibaba Cloud'un Qwen ekibi, yeni Qwen3.5 serisinin ilk modeli olan hafif Qwen3.5-397B-A17B'yi tanıttı.
Yerel bir görsel-dil sistemi olarak konumlandırılan model, akıl yürütme, kodlama, ajan görevleri ve çok modlu anlama alanlarında güçlü performans sergileyerek şirketin büyük ölçekli yapay zeka geliştirme çalışmalarında önemli bir ilerlemeyi yansıtıyor.
Model, doğrusal dikkat mekanizmasını Geçitli Delta Ağları aracılığıyla seyrek uzman karışımı tasarımıyla birleştiren hibrit bir mimari üzerine kurulmuştur ve çıkarım sırasında yüksek verimlilik sağlar. Tam sistem 397 milyar parametre içermesine rağmen, her ileri geçişte yalnızca 17 milyar parametre etkinleştirilir; bu da hesaplama maliyetini azaltırken yüksek kapasiteyi korumasını sağlar. Sürüm ayrıca dil ve lehçe kapsamını 119'dan 201'e genişleterek dünya çapındaki kullanıcılar ve geliştiriciler için erişilebilirliği artırır.
Qwen3.5, Takviyeli Öğrenme ve Ön Eğitim Verimliliğinde Büyük Bir Atılımı İşaret Ediyor
Qwen3.5 serisi, büyük ölçüde çok çeşitli ortamlarda kapsamlı takviyeli öğrenme ölçeklendirmesi sayesinde Qwen3'e kıyasla önemli kazanımlar sunmaktadır. Ekip, dar kapsamlı kıyaslamalara odaklanmak yerine, görev zorluğunu ve genelleştirilebilirliği artırmaya odaklanarak BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon ve MCP-Mark gibi değerlendirmelerde ajan performansında iyileşmeler sağlamıştır. Ek sonuçlar, yakında yayınlanacak bir teknik raporda ayrıntılı olarak ele alınacaktır.
Ön eğitim iyileştirmeleri güç, verimlilik ve çok yönlülüğü kapsar. Qwen3.5, güçlendirilmiş çok dilli, STEM ve mantıksal içerikle önemli ölçüde daha büyük hacimli görsel-metin verileri üzerinde eğitilmiştir ve bu sayede önceki trilyon parametreli modellerin performansına ulaşabilmektedir. Daha yüksek seyrek MoE, hibrit dikkat mekanizması, kararlılık iyileştirmeleri ve çoklu belirteç tahmini de dahil olmak üzere mimari yükseltmeler, özellikle 32k ve 256k belirteçlik genişletilmiş bağlam uzunluklarında önemli verimlilik artışları sağlar. Modelin çok modlu yetenekleri, erken metin-görsel birleştirme ve görüntüler, STEM materyalleri ve videoları kapsayan genişletilmiş veri kümeleri aracılığıyla güçlendirilirken, daha büyük 250k kelime dağarcığı çoğu dilde kodlama ve kod çözme verimliliğini artırır.
Qwen3.5'in arkasındaki altyapı, verimli çok modlu eğitim için tasarlanmıştır. Heterojen paralellik stratejisi, darboğazları önlemek için görüntü ve dil bileşenlerini ayırırken, seyrek aktivasyon, karışık metin-görüntü-video iş yüklerinde bile neredeyse tam verim sağlar. Yerel bir FP8 işlem hattı, aktivasyon belleğini yaklaşık yarıya indirir ve eğitim hızını %10'dan fazla artırarak, büyük token ölçeklerinde istikrarı korur.
Takviyeli öğrenme, her boyuttaki modeli işleyebilen, donanım kullanımını iyileştiren, yük dengelemesini ve hata kurtarmayı sağlayan tamamen eşzamansız bir çerçeve tarafından desteklenmektedir. FP8 uçtan uca eğitim, spekülatif kod çözme, dağıtım yönlendirici tekrar oynatma ve çok turlu dağıtım kilitleme gibi teknikler, tutarlılığı korumaya ve gradyan eskimesini azaltmaya yardımcı olur. Sistem, büyük ölçekli ajan iş akışlarını desteklemek, sorunsuz çok turlu etkileşimler sağlamak ve ortamlar arasında geniş genelleme yapmak üzere tasarlanmıştır.
Kullanıcılar, göreve bağlı olarak Otomatik, Düşünme ve Hızlı modları sunan Qwen Chat aracılığıyla Qwen3.5 ile etkileşim kurabilirler. Model ayrıca Alibaba Cloud'un ModelStudio'su üzerinden de kullanılabilir; burada mantık yürütme, web araması ve kod yürütme gibi gelişmiş özellikler basit parametreler aracılığıyla etkinleştirilebilir. Üçüncü taraf kodlama araçlarıyla entegrasyon, geliştiricilerin Qwen3.5'i mevcut iş akışlarına minimum sürtünmeyle entegre etmelerini sağlar.
Qwen ekibine göre, Qwen3.5, hibrit mimarisi ve yerel çok modlu akıl yürütme özelliğiyle evrensel dijital ajanlar için bir temel oluşturuyor. Gelecekteki geliştirmeler, oturumlar arası öğrenme için kalıcı bellek, gerçek dünya etkileşimi için somutlaştırılmış arayüzler, kendi kendine yönlendirilen iyileştirme mekanizmaları ve uzun vadeli otonom çalışma için ekonomik farkındalık da dahil olmak üzere sistem düzeyinde entegrasyona odaklanacaktır. Amaç, görev odaklı asistanlardan, karmaşık, çok günlük hedefleri güvenilir, insanla uyumlu yargılarla yönetebilen tutarlı, kalıcı ajanlara doğru ilerlemektir.
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Alisa, kendini işine adamış bir gazetecidir. MPost, kripto para birimi, sıfır bilgi kanıtları, yatırımlar ve geniş kapsamlı bilgi alanında uzmanlaşmıştır. Web3. Gelişmekte olan trendlere ve teknolojilere yönelik keskin bir bakış açısıyla, okuyucuları sürekli gelişen dijital finans ortamı hakkında bilgilendirmek ve etkileşime geçirmek için kapsamlı bir kapsam sunuyor.
Daha fazla haber
Alisa, kendini işine adamış bir gazetecidir. MPost, kripto para birimi, sıfır bilgi kanıtları, yatırımlar ve geniş kapsamlı bilgi alanında uzmanlaşmıştır. Web3. Gelişmekte olan trendlere ve teknolojilere yönelik keskin bir bakış açısıyla, okuyucuları sürekli gelişen dijital finans ortamı hakkında bilgilendirmek ve etkileşime geçirmek için kapsamlı bir kapsam sunuyor.