Tudósítást Technológia
Február 06, 2023

XLM-V: A többnyelvű maszkos nyelvi modellek új módszere, amely megpróbálja kezelni a szókincs szűk keresztmetszetét

Röviden

A cikk a következő problémát veti fel: nyelvi modellek a paraméterek növekedése, a mélység növekedése, de a szókincs mérete még mindig azonos.

A kutatók váratlan módon egy új modellt kezdenek el betanítani a szókincsből 1 millió tokennel.

A kutatók elhatározták, hogy megvizsgálják, milyen fejlesztést tudnak elérni a tokenek ilyen jelentős növelésével.

Az általa felvetett kérdés a cikkben Az „XLM-V: Overcoming the Vocabulary Bottleneck in Multilingual Masked Language Models” címet viseli, hogy amikor a nyelvi modellek paraméterei és mélysége nő, szókincsük mérete változatlan marad. Például az mT5 modell 13B paraméterrel rendelkezik, de egy 250 100 szavas szókincs, amely több mint 2,500 nyelvet támogat. Így minden nyelv körülbelül XNUMX egyedi tokennel rendelkezik, ami nyilvánvalóan nagyon kevés.

XLM-V: A többnyelvű maszkolt nyelvi modellek új módszere, amely megpróbálja kezelni a szókincs szűk keresztmetszete problémáját
@ Midjourney / Shalv

Milyen lépéseket tesznek a szerzők? Nem várt módon elkezdenek betanítani egy új modellt 1 millió tokennel a szókincsből. Az XLM-R korábban létezett, de ezzel a frissítéssel XLM-V lesz. Az írók elhatározták, hogy megnézik, milyen fejlesztést tudnak elérni a jelzők ilyen jelentős növelésével.

Kapcsolódó cikk: A mesterséges intelligencia modell képzési költségei 100-ra 500 millió dollárról 2030 millió dollárra emelkednek

Mi a helyzet az XLM-V újdonságával, amit az XLM-R nem?

Mi a helyzet az XLM-V újdonságával, amit az XLM-R nem?

A Javulás Többnyelvű modellek A Language-Clustered Vocabularies módszerrel minden nyelvhez lexikális reprezentációs vektorokat állítanak elő a következőképpen: a nyelvhalmaz minden egyes nyelvéhez egy bináris vektort alkotnak, amelynek minden eleme egy adott szó a nyelvben. Az egyik azt jelzi, hogy a szó szerepel a nyelv szótárában (megtekinthet egy képet grafikus leírással a mellékletekben.) Azonban az egyes lexémák negatív logaritmikus előfordulási valószínűségét kihasználó vektor létrehozásával a szerzők javítják a hivatkozások készítését. .

  1. A vektorokat ezután csoportosítjuk. Ezen túlmenően minden egyes klaszteren egy mondatrész-modellt képeznek ki, hogy megállítsák a szókincs átvitelét a lexikálisan nem kapcsolódó nyelvek között.
  2. Az ALP felméri a szótár képességét egy adott nyelv megjelenítésére.
  3. Az algoritmus felhasználása a létrehozáshoz Ultrakönnyű szótárak a következő lépés. amely egy nagy kezdeti szótárral kezdődik, és fokozatosan levágja, amíg a tokenek száma nem éri el a szótár méretének egy bizonyos küszöbértékét.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
üzleti Tudósítást Technológia
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
May 3, 2024
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
piacok Tudósítást Technológia
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
May 3, 2024
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
piacok Tudósítást Technológia
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
May 3, 2024
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
üzleti Tudósítást Technológia
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
May 3, 2024
CRYPTOMERIA LABS PTE. KFT.