Novinová správa Technológia
Februára 06, 2023

XLM-V: Nová metóda viacjazyčných maskovaných jazykových modelov, ktorá sa pokúša riešiť problém úzkeho miesta v slovnej zásobe

Stručne

Článok nastoľuje nasledujúci problém: jazykové modely nárast parametrov, rast do hĺbky, ale slovná zásoba je stále rovnako veľká.

Výskumníci začínajú nečakaným spôsobom trénovať nový model s 1 miliónom tokenov zo slovnej zásoby.

Výskumníci boli odhodlaní zistiť, aké zlepšenie by mohli dosiahnuť s takým výrazným nárastom tokenov.

Problém nastolený článok s názvom „XLM-V: Prekonanie zúženia slovnej zásoby vo viacjazyčných maskovaných jazykových modeloch“ je, že keď sa parametre a hĺbka jazykových modelov zvýšia, veľkosť ich slovnej zásoby zostane nezmenená. Napríklad model mT5 má 13B parametrov, ale slovnú zásobu s 250 100 slovami, ktorá podporuje viac ako 2,500 jazykov. Každý jazyk má teda približne XNUMX XNUMX jedinečných tokenov, čo je samozrejme veľmi malý počet.

XLM-V: Nová metóda viacjazyčných maskovaných jazykových modelov, ktorá sa pokúša riešiť problém zúženia slovnej zásoby
@ Midjourney / Šalv

Aké kroky robia autori? Nečakaným spôsobom začnú trénovať nový model s 1 miliónom tokenov zo slovnej zásoby. XLM-R predtým existoval, ale s touto aktualizáciou sa stane XLM-V. Spisovatelia boli odhodlaní zistiť, aký druh zlepšenia by mohli dosiahnuť s takým výrazným nárastom tokenov.

Súvisiaci článok: Očakáva sa, že náklady na školenie modelov AI sa do roku 100 zvýšia zo 500 miliónov USD na 2030 miliónov USD

Čo je na XLM-V nové, čo XLM-R nie?

Čo je na XLM-V nové, čo XLM-R nie?

Zlepšovanie Viacjazyčné modely s Language-Clustered Vocabularies metóda sa používa na konštrukciu vektorov lexikálnej reprezentácie pre každý jazyk takto: pre každý jazyk v množine jazykov tvoria binárny vektor, ktorého každý prvok je špecifické slovo v jazyku. Jeden naznačuje, že slovo je zahrnuté v slovníku jazyka (obrázok s grafickým popisom si môžete pozrieť v prílohách.) Vytvorením vektora využívajúceho negatívnu logaritmickú pravdepodobnosť výskytu každej lexémy však autori zlepšujú spôsob vytvárania odkazov .

  1. Potom sú vektory zoskupené. Okrem toho sa na každom konkrétnom zhluku trénuje model vety, aby sa zastavil prenos slovnej zásoby medzi lexikálne nesúvisiacimi jazykmi.
  2. ALP hodnotí schopnosť slovníka reprezentovať konkrétny jazyk.
  3. Využitie algoritmu na vytváranie Ultraľahký slovníky je nasledujúci krok. ktorý začína veľkým počiatočným slovníkom a postupne ho orezáva, kým počet tokenov neklesne pod určitú hranicu veľkosti slovníka.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Inštitucionálny apetít rastie smerom k bitcoinovým ETF uprostred volatility

Zverejnenia prostredníctvom podaní 13F odhaľujú pozoruhodných inštitucionálnych investorov, ktorí sa venujú bitcoinovým ETF, čo podčiarkuje rastúcu akceptáciu ...

vedieť viac

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
firmy Novinová správa Technológia
Injective spája svoje sily s AltLayer, aby priniesla bezpečnosť pri prestavbe inEVM
Môže 3, 2024
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
trhy Novinová správa Technológia
Masa sa spojila so spoločnosťou Teller, aby predstavila fond pôžičiek MASA a umožnila požičiavanie USDC na základni
Môže 3, 2024
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
trhy Novinová správa Technológia
Velodrome uvádza na trh beta verziu Superchain v najbližších týždňoch a rozširuje sa o blockchainy OP Stack Layer 2
Môže 3, 2024
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
firmy Novinová správa Technológia
CARV oznamuje partnerstvo so spoločnosťou Aethir s cieľom decentralizovať svoju dátovú vrstvu a distribuovať odmeny
Môže 3, 2024
CRYPTOMERIA LABS PTE. LTD.