A Qwen új Vision-Language modellt vezet be a kódolás, az érvelés és a multimodális mesterséges intelligencia teljesítményének fejlesztésére
Röviden
A Qwen csapata piacra dobta a nyitott súlyozású Qwen3.5-397B-A17B modellt, amely jelentős előrelépéseket jelent a multimodális teljesítmény, a megerősítéses tanulás és a betanítási hatékonyság terén, a hatékonyabb, általános célú MI-ügynökök felé irányuló szélesebb körű törekvés részeként.
Az Alibaba Cloud Qwen csapata bemutatta új Qwen3.5 sorozatának első modelljét, a nyitott súlyú Qwen3.5‑397B‑A17B-t.
Natív látásnyelvi rendszerként pozicionált modell kiváló teljesítményt nyújt az érvelés, a kódolás, az ágensi feladatok és a multimodális megértés terén, ami jelentős előrelépést jelent a vállalat nagyszabású mesterséges intelligencia fejlesztési erőfeszítéseiben.
A modell egy hibrid architektúrára épül, amely a kapuzott delta hálózatokon keresztüli lineáris figyelmet a ritka, szakértőkből álló keveréktervezéssel ötvözi, lehetővé téve a magas hatékonyságot a következtetés során. Bár a teljes rendszer 397 milliárd paramétert tartalmaz, minden egyes előrehaladáskor csak 17 milliárd aktiválódik, így a rendszer magas szintű képességeket tud fenntartani, miközben csökkenti a számítási költségeket. A kiadás a nyelvi és dialektuslefedettséget is 119-ről 201-re bővíti, szélesítve a hozzáférést a felhasználók és fejlesztők számára világszerte.
A Qwen3.5 jelentős ugrást jelent a megerősítéses tanulás és az előképzés hatékonysága terén
A Qwen3.5 sorozat jelentős előnyöket kínál a Qwen3-hoz képest, nagyrészt a megerősítéses tanulás széleskörű skálázhatóságának köszönhetően, amely számos környezetben alkalmazható. A szűk referenciaértékek optimalizálása helyett a csapat a feladatok nehézségének és általánosíthatóságának növelésére összpontosított, ami jobb ágensteljesítményt eredményezett olyan értékelések során, mint a BFCL-V4, a VITA-Bench, a DeepPlanning, a Tool-Decathlon és az MCP-Mark. A további eredményeket egy hamarosan megjelenő technikai jelentésben részletezzük.
Az előtanítási fejlesztések a teljesítményt, a hatékonyságot és a sokoldalúságot foglalják magukban. A Qwen3.5 jelentősen nagyobb mennyiségű vizuális szöveges adaton van betanítva, megerősített többnyelvű, STEM és logikai tartalommal, lehetővé téve, hogy megfeleljen a korábbi billió paraméteres modellek teljesítményének. Az architektúrális fejlesztések – beleértve a nagyobb ritkaságszámú MoE-t, a hibrid figyelmet, a stabilitási finomításokat és a több tokenes predikciót – jelentős átviteli sebességnövekedést eredményeznek, különösen a 32 ezer és 256 ezer tokenes kiterjesztett kontextushosszak esetén. A modell multimodális képességeit a korai szöveg-vízió fúzió és a képeket, STEM anyagokat és videókat lefedő kibővített adatkészletek erősítik, míg a nagyobb, 250 ezer tokenes szókincs javítja a kódolási és dekódolási hatékonyságot a legtöbb nyelven.
A Qwen3.5 mögött álló infrastruktúrát hatékony multimodális betanításra tervezték. Egy heterogén párhuzamossági stratégia elválasztja a vizuális és nyelvi komponenseket a szűk keresztmetszetek elkerülése érdekében, míg a ritka aktiválás közel teljes átviteli sebességet tesz lehetővé még vegyes szöveg-kép-videó terhelések esetén is. A natív FP8 folyamat nagyjából a felére csökkenti az aktiválási memóriát, és több mint 10 százalékkal növeli a betanítási sebességet, fenntartva a stabilitást hatalmas token skálákon.
A megerősítéses tanulást egy teljesen aszinkron keretrendszer támogatja, amely képes bármilyen méretű modell kezelésére, javítva a hardverkihasználtságot, a terheléselosztást és a hibák utáni helyreállítást. Az olyan technikák, mint az FP8 végponttól végpontig tartó betanítás, a spekulatív dekódolás, a rollout router visszajátszása és a többfordulós rollout zárolás segítenek fenntartani a konzisztenciát és csökkenteni a gradiens elavultságát. A rendszer nagyméretű ügynöki munkafolyamatok támogatására készült, lehetővé téve a zökkenőmentes többfordulós interakciókat és a széles körű általánosíthatóságot a különböző környezetekben.
A felhasználók a Qwen3.5-tel a Qwen Chat segítségével kommunikálhatnak, amely a feladattól függően Automatikus, Gondolkodás és Gyors módokat kínál. A modell az Alibaba Cloud ModelStudio alkalmazásán keresztül is elérhető, ahol olyan fejlett funkciók, mint az érvelés, a webes keresés és a kódfuttatás, egyszerű paraméterekkel engedélyezhetők. A harmadik féltől származó kódolóeszközökkel való integráció lehetővé teszi a fejlesztők számára, hogy minimális súrlódással alkalmazzák a Qwen3.5-öt a meglévő munkafolyamatokba.
A Qwen csapata szerint a Qwen3.5 hibrid architektúrájának és natív multimodális gondolkodásának köszönhetően megalapozza az univerzális digitális ágensek működését. A jövőbeli fejlesztések a rendszerszintű integrációra fognak összpontosítani, beleértve a több munkamenetet érintő tanuláshoz szükséges perzisztens memóriát, a valós interakcióhoz szükséges megtestesült interfészeket, az önirányított fejlesztési mechanizmusokat és a hosszú távú autonóm működéshez szükséges gazdasági tudatosságot. A cél az, hogy a feladatspecifikus asszisztenseken túl koherens, perzisztens ágensek felé haladjunk, amelyek képesek összetett, többnapos célokat kezelni megbízható, emberközpontú ítélőképességgel.
Jogi nyilatkozat
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Alisa, a The MPost, a kriptovalutákra, a nulla tudásalapú bizonyítékokra, a befektetésekre és a Web3. Élénk szemmel figyeli a feltörekvő trendeket és technológiákat, ezért átfogó tájékoztatást nyújt, hogy tájékoztassa és bevonja olvasóit a digitális pénzügyek folyamatosan fejlődő világába.
További cikkek
Alisa, a The MPost, a kriptovalutákra, a nulla tudásalapú bizonyítékokra, a befektetésekre és a Web3. Élénk szemmel figyeli a feltörekvő trendeket és technológiákat, ezért átfogó tájékoztatást nyújt, hogy tájékoztassa és bevonja olvasóit a digitális pénzügyek folyamatosan fejlődő világába.