Naujienų ataskaita Technologija
Vasaris 06, 2023

XLM-V: naujas daugiakalbių maskuotų kalbų modelių metodas, kuriuo bandoma išspręsti žodyno kliūties problemą

Trumpai

Straipsnyje iškeliama tokia problema: kalbos modeliai parametrų padidėjimas, gylis, bet žodynas vis tiek yra tokio pat dydžio.

Tyrėjai netikėtu būdu pradeda mokyti naują modelį su 1 milijonu žetonų iš žodyno.

Tyrėjai buvo pasiryžę išsiaiškinti, kokius patobulinimus jie galėtų padaryti taip žymiai padidinę žetonų skaičių.

Problema, kurią iškėlė straipsnis „XLM-V: žodyno kliūties įveikimas daugiakalbiuose maskuotų kalbų modeliuose“ reiškia, kad kai kalbos modelių parametrai ir gylis didėja, jų žodyno dydis nesikeičia. Pavyzdžiui, mT5 modelis turi 13B parametrų, bet 250 100 žodžių žodyną, kuris palaiko daugiau nei 2,500 kalbų. Taigi kiekviena kalba turi maždaug XNUMX unikalių žetonų, o tai akivaizdžiai yra labai mažas skaičius.

XLM-V: naujas daugiakalbių maskuotų kalbų modelių metodas, kuriuo bandoma išspręsti žodyno kliūties problemą
@ Midjourney / Šalvas

Kokių veiksmų imasi autoriai? Jie netikėtu būdu pradeda mokyti naują modelį su 1 milijonu žetonų iš žodyno. XLM-R egzistavo anksčiau, tačiau su šiuo atnaujinimu jis taps XLM-V. Rašytojai buvo pasiryžę pažiūrėti, kokį patobulinimą jie galėtų padaryti taip žymiai padidinę žetonų skaičių.

Susijęs straipsnis: Tikimasi, kad dirbtinio intelekto modelio mokymo išlaidos iki 100 m. padidės nuo 500 mln. iki 2030 mln.

O kaip XLM-V yra naujas, kurio XLM-R nedarė?

O kaip XLM-V yra naujas, kurio XLM-R nedarė?

Tobulėjimas Daugiakalbiai modeliai su Language-Clustered Vocabularies metodas naudojamas kiekvienos kalbos leksiniams vaizdavimo vektoriams sudaryti taip: kiekvienai kalbų rinkinio kalbai jie sudaro dvejetainį vektorių, kurio kiekvienas elementas yra konkretus kalbos žodis. Vienas rodo, kad žodis įtrauktas į kalbos žodyną (vaizdą su grafiniu aprašymu galite peržiūrėti prieduose). Tačiau sukūrę vektorių, panaudojant neigiamą logaritminę kiekvienos leksemos atsiradimo tikimybę, autoriai pagerina nuorodų sudarymą. .

  1. Po to vektoriai grupuojami. Be to, kiekviename konkrečiame klasteryje apmokomas sakinio modelis, kad būtų sustabdytas žodyno perkėlimas tarp leksiškai nesusijusių kalbų.
  2. ALP įvertina žodyno gebėjimą reprezentuoti konkrečią kalbą.
  3. Sukūrimo algoritmo naudojimas Ultralengvas žodynai yra toks žingsnis. kuris prasideda dideliu pradiniu žodynu ir palaipsniui jį mažina, kol žetonų skaičius nesiekia tam tikros žodyno dydžio ribos.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Injective sujungia jėgas su AltLayer, kad padidintų inEVM saugumą
Atsakingas verslas Naujienų ataskaita Technologija
Injective sujungia jėgas su AltLayer, kad padidintų inEVM saugumą
Gali 3, 2024
„Masa“ bendradarbiauja su „Teller“, kad pristatytų MASA skolinimo fondą, leidžiantį skolintis USDC pagrindu
rinkos Naujienų ataskaita Technologija
„Masa“ bendradarbiauja su „Teller“, kad pristatytų MASA skolinimo fondą, leidžiantį skolintis USDC pagrindu
Gali 3, 2024
„Velodrome“ ateinančiomis savaitėmis pristato „Superchain“ beta versiją ir išplečiama visose „OP Stack Layer 2 Blockchains“
rinkos Naujienų ataskaita Technologija
„Velodrome“ ateinančiomis savaitėmis pristato „Superchain“ beta versiją ir išplečiama visose „OP Stack Layer 2 Blockchains“
Gali 3, 2024
CARV praneša apie partnerystę su Aethir, kad decentralizuotų savo duomenų sluoksnį ir paskirstytų atlygį
Atsakingas verslas Naujienų ataskaita Technologija
CARV praneša apie partnerystę su Aethir, kad decentralizuotų savo duomenų sluoksnį ir paskirstytų atlygį
Gali 3, 2024
CRYPTOMERIA LABS PTE. LTD.