Februāris 06, 2023

XLM-V: jauna daudzvalodu maskētu valodu modeļu metode, kas mēģina risināt vārdu krājuma sašaurinājuma problēmu

Publicēts: 06. gada 2023. februārī plkst. 8:30 Atjaunināts: 06. gada 2023. februārī plkst. 7:37

Īsumā

Rakstā tiek apspriesta šāda problēma: valodu modeļi parametru pieaugums, dziļums, bet vārdu krājums joprojām ir tāds pats.

Pētnieki negaidītā veidā sāk apmācīt jaunu modeli ar 1 miljonu žetonu no vārdu krājuma.

Pētnieki bija apņēmības pilni noskaidrot, kādus uzlabojumus viņi varētu veikt ar tik ievērojamu žetonu pieaugumu.

Problēma, ko izvirzīja raksts Ar nosaukumu “XLM-V: vārdnīcas sašaurinājuma pārvarēšana daudzvalodu maskēto valodu modeļos” ir tas, ka, palielinoties valodu modeļu parametriem un dziļumam, to vārdu krājuma lielums paliek nemainīgs. Piemēram, mT5 modelim ir 13 B parametri, bet 250 100 vārdu vārdnīca, kas atbalsta vairāk nekā 2,500 valodas. Tādējādi katrai valodai ir aptuveni XNUMX unikālu marķieru, kas acīmredzami ir ļoti mazs skaits.

XLM-V: jauna daudzvalodu maskētu valodu modeļu metode, kas mēģina risināt vārdu krājuma vājās vietas problēmu — @ Midjourney / Šalv

Kādas darbības veic autori? Viņi negaidītā veidā sāk apmācīt jaunu modeli ar 1 miljonu žetonu no vārdnīcas. XLM-R pastāvēja iepriekš, taču ar šo jauninājumu tas kļūs par XLM-V. Rakstnieki bija apņēmības pilni redzēt, kādus uzlabojumus viņi varētu veikt ar tik ievērojamu žetonu pieaugumu.

Saistītais raksts: Paredzams, ka AI modeļu apmācības izmaksas līdz 100. gadam pieaugs no 500 miljoniem USD līdz 2030 miljoniem USD

Kā ar XLM-V ir jaunums, ko XLM-R nebija?

Uzlabošanās Daudzvalodu modeļi ar Language-Clustered Vocabularies metodi izmanto, lai katrai valodai konstruētu leksiskās reprezentācijas vektorus šādi: katrai valodu kopas valodai tie veido bināru vektoru, kura katrs elements ir konkrēts vārds valodā. Viens norāda, ka vārds ir iekļauts valodas vārdnīcā (pielikumos varat apskatīt attēlu ar grafisku aprakstu). Tomēr, izveidojot vektoru, izmantojot katras leksēmas negatīvo logaritmisko rašanās varbūtību, autori uzlabo atsauču veidošanu. .

Pēc tam vektori tiek grupēti. Turklāt katrā konkrētajā klasterī tiek apmācīts teikuma modelis, lai apturētu vārdu krājuma pārnešanu starp leksiski nesaistītām valodām.
ALP novērtē vārdnīcas spēju pārstāvēt noteiktu valodu.
Izveidošanas algoritma izmantošana Ulm vārdnīcas ir nākamais solis. kas sākas ar lielu sākotnējo vārdnīcu un pakāpeniski to samazina, līdz marķieru skaits ir zem noteikta vārdnīcas izmēra sliekšņa.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs