Qwen predstavlja novi model vizualnog jezika za unapređenje kodiranja, zaključivanja i multimodalnih performansi umjetne inteligencije
Ukratko
Qwen tim je lansirao model Qwen3.5‑397B‑A17B otvorene težine, uvodeći značajne napretke u multimodalnim performansama, učenju s potkrepljenjem i učinkovitosti obuke kao dio šireg napora prema sposobnijim, univerzalnim AI agentima.
Qwen tim tvrtke Alibaba Cloud predstavio je prvi model u svojoj novoj Qwen3.5 seriji, otkrivajući Qwen3.5‑397B‑A17B otvorene težine.
Pozicioniran kao izvorni sustav vizualnog jezika, model pruža snažne performanse u zaključivanju, kodiranju, agentskim zadacima i multimodalnom razumijevanju, što odražava značajan napredak u naporima tvrtke u razvoju umjetne inteligencije velikih razmjera.
Model je izgrađen na hibridnoj arhitekturi koja kombinira linearnu pažnju putem Gated Delta mreža s dizajnom rijetke mješavine stručnjaka, omogućujući visoku učinkovitost tijekom zaključivanja. Iako cijeli sustav sadrži 397 milijardi parametara, samo 17 milijardi se aktivira za svaki prolaz naprijed, što mu omogućuje održavanje visokih mogućnosti uz smanjenje računalnih troškova. Izdanje također proširuje pokrivenost jezika i dijalekata sa 119 na 201, proširujući dostupnost za korisnike i razvojne programere diljem svijeta.
Qwen3.5 označava veliki skok u učenju s potkrepljenjem i učinkovitosti predtreninga
Serija Qwen3.5 uvodi značajna poboljšanja u odnosu na Qwen3, uglavnom potaknuta opsežnim skaliranjem učenja s potkrepljenjem u širokom rasponu okruženja. Umjesto optimizacije za uske kriterije, tim se usredotočio na povećanje težine zadataka i generalizacije, što je rezultiralo poboljšanim performansama agenata u evaluacijama kao što su BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon i MCP-Mark. Dodatni rezultati bit će detaljno opisani u nadolazećem tehničkom izvješću.
Poboljšanja prije treniranja obuhvaćaju snagu, učinkovitost i svestranost. Qwen3.5 trenira se na znatno većoj količini vizualno-tekstualnih podataka s ojačanim višejezičnim, STEM i logičkim sadržajem, što mu omogućuje da dostigne performanse ranijih modela s bilijun parametara. Arhitektonska poboljšanja - uključujući MoE s većom rijetkošću, hibridnu pažnju, poboljšanja stabilnosti i predviđanje više tokena - donose značajna poboljšanja propusnosti, posebno pri proširenim duljinama konteksta od 32 tisuće i 256 tisuća tokena. Multimodalne mogućnosti modela ojačane su ranom fuzijom tekstualnog vida i proširenim skupovima podataka koji pokrivaju slike, STEM materijale i videozapise, dok veći vokabular od 250 tisuća poboljšava učinkovitost kodiranja i dekodiranja u većini jezika.
Infrastruktura iza Qwen3.5 dizajnirana je za učinkovito multimodalno učenje. Strategija heterogene paralelizacije odvaja vizualne i jezične komponente kako bi se izbjegla uska grla, dok rijetka aktivacija omogućuje gotovo potpuni protok čak i pri miješanim radnim opterećenjima teksta, slike i videa. Izvorni FP8 cjevovod smanjuje memoriju aktivacije za otprilike polovicu i povećava brzinu učenja za više od 10 posto, održavajući stabilnost na masovnim skalama tokena.
Učenje s potkrepljenjem podržano je potpuno asinkronim okvirom sposobnim za rukovanje modelima svih veličina, poboljšavajući iskorištenost hardvera, uravnoteženje opterećenja i oporavak od grešaka. Tehnike poput FP8 end-to-end obuke, spekulativnog dekodiranja, ponavljanja rollout usmjerivača i višestrukog zaključavanja rollout-a pomažu u održavanju konzistentnosti i smanjenju zastarjelosti gradijenta. Sustav je izgrađen za podršku tijekovima rada agenata velikih razmjera, omogućujući besprijekorne višestruke interakcije i široku generalizaciju u različitim okruženjima.
Korisnici mogu komunicirati s Qwen3.5 putem Qwen Chata, koji nudi automatski, način razmišljanja i brzi način rada ovisno o zadatku. Model je također dostupan putem Alibaba Cloudovog ModelStudia, gdje se napredne značajke poput zaključivanja, web pretraživanja i izvršavanja koda mogu omogućiti jednostavnim parametrima. Integracija s alatima za kodiranje trećih strana omogućuje programerima da usvoje Qwen3.5 u postojeće tijekove rada uz minimalne poteškoće.
Prema Qwen timu, Qwen3.5 uspostavlja temelje za univerzalne digitalne agente kroz svoju hibridnu arhitekturu i izvorno multimodalno zaključivanje. Budući razvoj usredotočit će se na integraciju na razini sustava, uključujući trajnu memoriju za učenje kroz sesije, utjelovljena sučelja za interakciju u stvarnom svijetu, mehanizme samostalnog poboljšanja i ekonomsku svijest za dugoročni autonomni rad. Cilj je prijeći s pomoćnika specifičnih za zadatke prema koherentnim, trajnim agentima sposobnim za upravljanje složenim, višednevnim ciljevima s pouzdanom, ljudski usklađenom prosudbom.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Alisa, predana novinarka u MPost, specijalizirao se za kriptovalute, dokaze bez znanja, ulaganja i ekspanzivno područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.
Više članaka
Alisa, predana novinarka u MPost, specijalizirao se za kriptovalute, dokaze bez znanja, ulaganja i ekspanzivno područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.