Qwen julkaisee uuden Vision-Language-mallin koodauksen, päättelyn ja multimodaalisen tekoälyn suorituskyvyn parantamiseksi
Lyhyesti
Qwen-tiimi on lanseerannut avoimen Qwen3.5-397B-A17B-mallin, joka tuo merkittäviä parannuksia multimodaaliseen suorituskykyyn, vahvistusoppimiseen ja koulutuksen tehokkuuteen osana laajempaa pyrkimystä kehittää tehokkaampia ja yleiskäyttöisempiä tekoälyagentteja.
Alibaba Cloudin Qwen-tiimi on esitellyt uuden Qwen3.5-sarjansa ensimmäisen mallin, avoimen rungon Qwen3.5‑397B‑A17B:n.
Natiivina näkökielijärjestelmänä toimiva malli tarjoaa vahvan suorituskyvyn päättelyssä, koodauksessa, agenttitehtävissä ja multimodaalisessa ymmärryksessä, mikä heijastaa merkittävää edistysaskelta yrityksen laajamittaisissa tekoälyn kehitystyössä.
Malli perustuu hybridiarkkitehtuuriin, joka yhdistää lineaarisen huomion porttiohjattujen deltaverkkojen kautta harvaan asiantuntijoiden yhdistelmäsuunnitteluun, mikä mahdollistaa korkean tehokkuuden päättelyn aikana. Vaikka koko järjestelmä sisältää 397 miljardia parametria, vain 17 miljardia aktivoidaan jokaisella eteenpäin suuntautuvalla kierroksella, mikä mahdollistaa sen, että se ylläpitää korkean suorituskyvyn ja vähentää samalla laskentakustannuksia. Julkaisu laajentaa myös kieli- ja murrekattavuutta 119:stä 201:een, mikä parantaa käyttäjien ja kehittäjien saatavuutta maailmanlaajuisesti.
Qwen3.5 on merkittävä harppaus vahvistusoppimisessa ja esikoulutuksen tehokkuudessa
Qwen3.5-sarja tuo huomattavia etuja Qwen3:een verrattuna, pääasiassa laajan vahvistusoppimisen skaalautuvuuden ansiosta monenlaisissa ympäristöissä. Kapeiden vertailuarvojen optimoinnin sijaan tiimi keskittyi tehtävien vaikeusasteen ja yleistettävyyden lisäämiseen, mikä johti agenttien suorituskyvyn paranemiseen eri arvioinneissa, kuten BFCL-V4, VITA-Bench, DeepPlanning, Tool-Decathlon ja MCP-Mark. Lisätulokset esitetään tulevassa teknisessä raportissa.
Esikoulutuksen parannukset kattavat tehokkuuden, tehokkuuden ja monipuolisuuden. Qwen3.5:tä koulutetaan huomattavasti suuremmalla määrällä visuaalista tekstidataa, jossa on vahvistettu monikielinen, STEM- ja päättelysisältö, minkä ansiosta se vastaa aiempien triljoonan parametrin mallien suorituskykyä. Arkkitehtuuripäivitykset – mukaan lukien suurempi harvuus MoE, hybridi tarkkaavaisuus, vakauden parannukset ja usean tunnuksen ennustaminen – tuottavat merkittäviä suorituskykyetuja, erityisesti laajennetuilla 32 000 ja 256 000 tokenia sisältävillä kontekstipituuksilla. Mallin multimodaalisia ominaisuuksia vahvistetaan varhaisen tekstin ja vision fuusion ja laajennettujen datajoukkojen avulla, jotka kattavat kuvia, STEM-materiaaleja ja videoita, kun taas suurempi 250 000 tokenia sisältävä sanasto parantaa koodaus- ja dekoodaustehokkuutta useimmilla kielillä.
Qwen3.5:n taustalla oleva infrastruktuuri on suunniteltu tehokasta multimodaalista koulutusta varten. Heterogeeninen rinnakkaisuusstrategia erottaa näkö- ja kielikomponentit pullonkaulojen välttämiseksi, kun taas harva aktivointi mahdollistaa lähes täyden läpimenon jopa sekalaisissa teksti-kuva-video-työkuormissa. Natiivi FP8-prosessi vähentää aktivointimuistia noin puolella ja lisää koulutusnopeutta yli 10 prosenttia, mikä ylläpitää vakautta massiivisissa token-skaavoissa.
Vahvistusoppimista tukee täysin asynkroninen kehys, joka pystyy käsittelemään kaikenkokoisia malleja, parantamaan laitteiston käyttöastetta, kuormituksen tasapainotusta ja vikasietoisuutta. Tekniikat, kuten FP8:n kokonaisvaltainen koulutus, spekulatiivinen dekoodaus, käyttöönottoreitittimen toisto ja usean vuorokauden käyttöönoton lukitus, auttavat ylläpitämään johdonmukaisuutta ja vähentämään gradientin vanhenemista. Järjestelmä on rakennettu tukemaan laaja-alaisia agenttien työnkulkuja, mikä mahdollistaa saumattomat usean vuorokauden vuorovaikutukset ja laajan yleistettävyyden eri ympäristöissä.
Käyttäjät voivat olla vuorovaikutuksessa Qwen3.5:n kanssa Qwen Chatin kautta, joka tarjoaa automaattisen, ajattelu- ja nopean tilan tehtävästä riippuen. Malli on saatavilla myös Alibaba Cloudin ModelStudion kautta, jossa edistyneitä ominaisuuksia, kuten päättelyä, verkkohakua ja koodin suorittamista, voidaan ottaa käyttöön yksinkertaisten parametrien avulla. Integrointi kolmannen osapuolen koodaustyökaluihin mahdollistaa kehittäjien ottaa Qwen3.5:n käyttöön olemassa olevissa työnkuluissa minimaalisella kitkalla.
Qwen-tiimin mukaan Qwen3.5 luo pohjan universaaleille digitaalisille agenteille hybridiarkkitehtuurinsa ja natiivin multimodaalisen päättelynsä avulla. Tuleva kehitys keskittyy järjestelmätason integrointiin, mukaan lukien pysyvä muisti istuntojen välistä oppimista varten, ruumiilliset käyttöliittymät reaalimaailman vuorovaikutusta varten, itseohjautuvat parannusmekanismit ja taloudellinen tietoisuus pitkän aikavälin autonomista toimintaa varten. Tavoitteena on siirtyä tehtäväkohtaisista avustajista kohti johdonmukaisia, pysyviä agentteja, jotka kykenevät hallitsemaan monimutkaisia, usean päivän tavoitteita luotettavalla, ihmisen ohjaamalla harkinnalla.
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Alisa, omistautunut toimittaja MPost, on erikoistunut kryptovaluuttaan, nollatietotodisteisiin, sijoituksiin ja laajaan Web3. Hän tarkkailee tarkasti nousevia trendejä ja teknologioita, ja hän tarjoaa kattavan kattavuuden tiedottaakseen ja saadakseen lukijat mukaan digitaalisen rahoituksen jatkuvasti kehittyvään maisemaan.
lisää artikkeleita
Alisa, omistautunut toimittaja MPost, on erikoistunut kryptovaluuttaan, nollatietotodisteisiin, sijoituksiin ja laajaan Web3. Hän tarkkailee tarkasti nousevia trendejä ja teknologioita, ja hän tarjoaa kattavan kattavuuden tiedottaakseen ja saadakseen lukijat mukaan digitaalisen rahoituksen jatkuvasti kehittyvään maisemaan.