Vijesti Tehnologija
Veljače 06, 2023

XLM-V: Nova metoda višejezičnih maskiranih jezičnih modela koja pokušava riješiti problem uskog grla vokabulara

Ukratko

U članku se postavlja sljedeći problem: jezični modeli povećavaju se parametri, rastu u dubinu, ali vokabular je i dalje iste veličine.

Istraživači počinju trenirati novi model s milijun tokena iz vokabulara na neočekivan način.

Istraživači su bili odlučni vidjeti kakva poboljšanja mogu napraviti s tako značajnim povećanjem tokena.

Pitanje koje je pokrenuo članak pod naslovom “XLM-V: Prevladavanje uskog grla vokabulara u višejezičnim maskiranim jezičkim modelima” je da kad se parametri i dubina jezičnih modela povećaju, njihova veličina vokabulara ostaje nepromijenjena. Na primjer, model mT5 ima 13B parametara, ali vokabular od 250K riječi koji podržava više od 100 jezika. Dakle, svaki jezik ima otprilike 2,500 jedinstvenih tokena, što je očito vrlo mali broj.

XLM-V: Nova metoda višejezičnih maskiranih jezičnih modela koja pokušava riješiti problem uskog grla vokabulara
@ Midjourney / Shalv

Što poduzimaju autori? Počinju trenirati novi model s 1 milijun tokena iz vokabulara na neočekivan način. XLM-R je već postojao, no s ovom nadogradnjom postat će XLM-V. Pisci su bili odlučni vidjeti kakva poboljšanja mogu napraviti s tako značajnim povećanjem tokena.

Povezani članak: Očekuje se da će troškovi obuke modela umjetne inteligencije porasti sa 100 milijuna dolara na 500 milijuna dolara do 2030.

Što je s XLM-V novo što XLM-R nije?

Što je s XLM-V novo što XLM-R nije?

Poboljšanje Višejezični modeli s metodom Language-Clustered Vocabularies koristi se za konstruiranje vektora leksičke reprezentacije za svaki jezik na sljedeći način: za svaki jezik u skupu jezika, oni čine binarni vektor, čiji je svaki element određena riječ u jeziku. Jedan označava da je riječ uključena u rječnik jezika (možete vidjeti sliku s grafičkim opisom u privitcima.) Međutim, stvaranjem vektora koji koristi negativnu logaritamsku vjerojatnost pojavljivanja svakog leksema, autori poboljšavaju način na koji se upućuju .

  1. Vektori se nakon toga grupiraju. Dodatno, model rečeničnog dijela trenira se na svakom pojedinom klasteru kako bi se zaustavio prijenos vokabulara između leksički nepovezanih jezika.
  2. ALP procjenjuje sposobnost rječnika da predstavlja određeni jezik.
  3. Korištenje algoritma za stvaranje Ultralaki rječnici je sljedeći korak. koji počinje s velikim početnim rječnikom i postupno ga skraćuje sve dok broj tokena ne bude ispod određenog praga za veličinu rječnika.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Institucionalni apetit raste prema Bitcoin ETF-ovima usred volatilnosti

Objave putem 13F prijava otkrivaju značajne institucionalne ulagače koji se upuštaju u Bitcoin ETF-ove, naglašavajući sve veće prihvaćanje ...

Znati više

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Injective udružuje snage s AltLayerom kako bi unio sigurnost ponovnog postavljanja na inEVM
posao Vijesti Tehnologija
Injective udružuje snage s AltLayerom kako bi unio sigurnost ponovnog postavljanja na inEVM
Neka 3, 2024
Masa se udružuje s Tellerom kako bi uveli MASA Lending Pool, omogućujući USDC posuđivanje na bazi
tržišta Vijesti Tehnologija
Masa se udružuje s Tellerom kako bi uveli MASA Lending Pool, omogućujući USDC posuđivanje na bazi
Neka 3, 2024
Velodrome lansira Superchain Beta verziju u nadolazećim tjednima i proširuje se na OP Stack Layer 2 Blockchains
tržišta Vijesti Tehnologija
Velodrome lansira Superchain Beta verziju u nadolazećim tjednima i proširuje se na OP Stack Layer 2 Blockchains
Neka 3, 2024
CARV najavljuje partnerstvo s Aethirom za decentralizaciju svog podatkovnog sloja i distribuciju nagrada
posao Vijesti Tehnologija
CARV najavljuje partnerstvo s Aethirom za decentralizaciju svog podatkovnog sloja i distribuciju nagrada
Neka 3, 2024
CRYPTOMERIA LABS PTE. LTD.