Novinky Technika
Února 06, 2023

XLM-V: Nová metoda vícejazyčných maskovaných jazykových modelů, která se pokouší řešit problém úzkého místa ve slovní zásobě

Stručně

Článek vyvolává následující problém: jazykové modely nárůst parametrů, růst do hloubky, ale slovní zásoba je stále stejně velká.

Výzkumníci začínají neočekávaným způsobem trénovat nový model s 1 milionem tokenů ze slovní zásoby.

Výzkumníci byli odhodláni zjistit, jaké zlepšení by mohli dosáhnout s tak výrazným nárůstem tokenů.

Problém vznesený článek s názvem „XLM-V: Překonání úzkého místa slovní zásoby ve vícejazyčných maskovaných jazykových modelech“ spočívá v tom, že když se parametry a hloubka jazykových modelů zvýší, velikost jejich slovní zásoby zůstane nezměněna. Například model mT5 má 13B parametrů, ale slovník o 250 tisících slov, který podporuje více než 100 jazyků. Každý jazyk má tedy přibližně 2,500 XNUMX jedinečných tokenů, což je samozřejmě velmi malý počet.

XLM-V: Nová metoda vícejazyčných maskovaných jazykových modelů, která se pokouší řešit problém zúžení slovní zásoby
@ Midjourney / Shalv

Jaké kroky dělají autoři? Nečekaným způsobem začnou trénovat nový model s 1 milionem tokenů ze slovní zásoby. XLM-R dříve existoval, ale s tímto upgradem se stane XLM-V. Spisovatelé byli odhodláni zjistit, jaké zlepšení by mohli provést s tak výrazným nárůstem tokenů.

Související článek: Očekává se, že náklady na školení AI Model do roku 100 vzrostou ze 500 milionů USD na 2030 milionů USD

Co je u XLM-V nového, co XLM-R ne?

Co je u XLM-V nového, co XLM-R ne?

Zlepšující se Vícejazyčné modely s Language-Clustered Vocabularies metoda se používá ke konstrukci vektorů lexikální reprezentace pro každý jazyk následovně: pro každý jazyk v množině jazyků tvoří binární vektor, jehož každý prvek je specifické slovo v jazyce. Jeden naznačuje, že slovo je zahrnuto ve slovníku jazyka (obrázek s grafickým popisem si můžete prohlédnout v přílohách.) Vytvořením vektoru využívajícího zápornou logaritmickou pravděpodobnost výskytu každého lexému však autoři vylepšují způsob vytváření odkazů. .

  1. Poté jsou vektory seskupeny. Navíc je na každém konkrétním shluku trénován model větného členu, aby se zastavil přenos slovní zásoby mezi lexikálně nesouvisejícími jazyky.
  2. ALP posuzuje schopnost slovníku reprezentovat konkrétní jazyk.
  3. Využití algoritmu pro tvorbu Ultralehký slovníky je následující krok. který začíná velkým počátečním slovníkem a postupně jej zkracuje, dokud počet tokenů není pod určitou prahovou hodnotou pro velikost slovníku.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.