Novice Tehnologija
Februar 06, 2023

XLM-V: Nova metoda večjezičnih maskiranih jezikovnih modelov, ki poskuša rešiti problem ozkega grla v besedišču

Na kratko

Članek odpira naslednji problem: jezikovni modeli povečanje parametrov, rast v globino, vendar je besedni zaklad še vedno enako velik.

Raziskovalci začnejo učiti nov model z 1 milijonom žetonov iz besedišča na nepričakovan način.

Raziskovalci so bili odločeni ugotoviti, kakšne izboljšave bi lahko dosegli s tako znatnim povečanjem žetonov.

Vprašanje, ki ga je izpostavil članek z naslovom “XLM-V: premagovanje ozkega grla v besedišču v večjezičnih zamaskiranih jezikovnih modelih” pravi, da ko se parametri in globina jezikovnih modelov povečajo, velikost njihovega besedišča ostane nespremenjena. Na primer, model mT5 ima 13B parametrov, vendar 250 besedni zaklad, ki podpira več kot 100 jezikov. Tako ima vsak jezik približno 2,500 edinstvenih žetonov, kar je očitno zelo malo.

XLM-V: nova metoda večjezičnih maskiranih jezikovnih modelov, ki poskuša rešiti problem ozkega grla v besedišču
@ Midjourney / Shalv

Kakšne ukrepe izvajajo avtorji? Na nepričakovan način začnejo usposabljati nov model z 1 milijonom žetonov iz besedišča. XLM-R je že obstajal, vendar bo s to nadgradnjo postal XLM-V. Pisci so bili odločeni videti, kakšne izboljšave bi lahko naredili s tako znatnim povečanjem žetonov.

Povezani članek: Pričakuje se, da bodo stroški usposabljanja modelov AI do leta 100 narasli s 500 milijonov USD na 2030 milijonov USD

Kaj pa je XLM-V novost, ki je ni XLM-R?

Kaj pa je XLM-V novost, ki je ni XLM-R?

Izboljšanje Večjezični modeli z metodo Language-Clustered Vocabularies se uporablja za izdelavo leksikalnih predstavitvenih vektorjev za vsak jezik, kot sledi: za vsak jezik v nizu jezikov sestavljajo binarni vektor, katerega vsak element je določena beseda v jeziku. Ena označuje, da je beseda vključena v jezikovni slovar (v priponkah si lahko ogledate sliko z grafičnim opisom.) Vendar avtorji z ustvarjanjem vektorja, ki uporablja negativno logaritemsko verjetnost pojavljanja vsakega leksema, izboljšajo način sklicevanja .

  1. Vektorji so nato združeni. Poleg tega se model stavčnega dela usposobi za vsako posamezno skupino, da se ustavi prenos besedišča med leksikalno nepovezanimi jeziki.
  2. ALP oceni sposobnost slovarja, da predstavlja določen jezik.
  3. Uporaba algoritma za ustvarjanje Ultralahka slovarjev je naslednji korak. ki se začne z velikim začetnim slovarjem in ga postopoma zmanjšuje, dokler število žetonov ni pod določenim pragom za velikost slovarja.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
ŽELITE POSTATI PARTNER Novice Tehnologija
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
Maj 3, 2024
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Prisotnost Novice Tehnologija
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Maj 3, 2024
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Prisotnost Novice Tehnologija
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Maj 3, 2024
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
ŽELITE POSTATI PARTNER Novice Tehnologija
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
Maj 3, 2024
CRYPTOMERIA LABS PTE. LTD.