XLM-V: un nou mètode de models de llenguatge emmascarat multilingüe que intenta abordar el problema del coll d'ampolla del vocabulari
En breu
L'article planteja el següent problema: models lingüístics augmentar els paràmetres, créixer en profunditat, però el vocabulari segueix sent el mateix en grandària.
Els investigadors comencen a entrenar un model nou amb 1 milió de fitxes del vocabulari d'una manera inesperada.
Els investigadors estaven decidits a veure quin tipus de millora podrien fer amb un augment tan significatiu de fitxes.
La qüestió plantejada per la article titulat "XLM-V: Superant el coll d'ampolla del vocabulari en els models lingüístics emmascarats multilingües" és que quan els paràmetres i la profunditat dels models lingüístics augmenten, la seva mida de vocabulari es manté sense canvis. Per exemple, el model mT5 té 13B paràmetres però un vocabulari de 250K paraules que admet més de 100 idiomes. Així, cada idioma té aproximadament 2,500 fitxes úniques, que és òbviament un nombre molt petit.
Quines accions fan els autors? Comencen a entrenar un model nou amb 1 milió de fitxes del vocabulari d'una manera inesperada. XLM-R existia anteriorment, però, amb aquesta actualització, es convertirà en XLM-V. Els escriptors estaven decidits a veure quin tipus de millora podrien fer amb un augment tan important de fitxes.
Article relacionat: S'espera que els costos de formació del model d'IA pugin de 100 milions de dòlars a 500 milions de dòlars el 2030 |
Què passa amb XLM-V és nou que XLM-R no?
La Millora Models multilingües amb el mètode Language-Clustered Vocabularies s'utilitza per construir vectors de representació lèxica per a cada llengua de la següent manera: per a cada llengua del conjunt de llengües, formen un vector binari, cada element del qual és una paraula específica de la llengua. Un indica que la paraula s'inclou al diccionari de l'idioma (podeu veure una imatge amb una descripció gràfica als adjunts). Tanmateix, en crear un vector utilitzant la probabilitat logarítmica negativa d'ocurrència de cada lexema, els autors milloren com es fan les referències. .
- Els vectors s'agrupen després. A més, s'entrena un model de frase en cada clúster en particular per aturar la transferència de vocabulari entre llengües sense relació lèxica.
- L'ALP avalua la capacitat d'un diccionari per representar una llengua específica.
- Utilitzant l'algoritme per crear Ultralleuger diccionaris és el següent pas. que comença amb un gran diccionari inicial i el retalla gradualment fins que el nombre de fitxes està per sota d'un determinat llindar per a la mida del diccionari.
Llegeix més sobre AI:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.