Nieuwsverslag Technologie
06 februari 2023

XLM-V: een nieuwe methode van meertalige gemaskeerde taalmodellen die probeert het probleem van de woordenschatknelpunt aan te pakken

In het kort

Het artikel roept het volgende probleem op: taalmodellen toename in parameters, groei in diepte, maar de woordenschat is nog steeds hetzelfde in omvang.

Onderzoekers beginnen op een onverwachte manier met het trainen van een nieuw model met 1 miljoen tokens uit het vocabulaire.

De onderzoekers waren vastbesloten om te zien wat voor soort verbetering ze konden maken met zo'n aanzienlijke toename van tokens.

De kwestie die door de dit artikel getiteld "XLM-V: Het overwinnen van het vocabulaire-knelpunt in meertalige gemaskeerde taalmodellen" is dat wanneer de parameters en diepte van taalmodellen toenemen, hun vocabulaire-omvang ongewijzigd blijft. Het mT5-model heeft bijvoorbeeld 13B parameters maar een woordenschat van 250 woorden die meer dan 100 talen ondersteunt. Elke taal heeft dus ongeveer 2,500 unieke tokens, wat natuurlijk een heel klein aantal is.

XLM-V: een nieuwe methode van meertalige gemaskeerde taalmodellen die probeert het probleem van het vocabulaire-knelpunt aan te pakken
@ Midjourney / Schalv

Welke actie ondernemen de auteurs? Ze beginnen op een onverwachte manier een nieuw model te trainen met 1 miljoen tokens uit het vocabulaire. XLM-R bestond al, maar met deze upgrade wordt het XLM-V. De schrijvers waren vastbesloten om te zien wat voor verbetering ze konden aanbrengen met zo'n aanzienlijke toename van tokens.

Gerelateerd artikel: Trainingskosten AI-model zullen naar verwachting stijgen van $ 100 miljoen naar $ 500 miljoen in 2030

Hoe zit het met XLM-V is nieuw dat XLM-R niet deed?

Hoe zit het met XLM-V is nieuw dat XLM-R niet deed?

Het verbeteren Meertalige modellen met Language-Clustered Vocabularies wordt de methode gebruikt om lexicale representatievectoren voor elke taal als volgt te construeren: voor elke taal in de verzameling talen vormen ze een binaire vector, waarvan elk element een specifiek woord in de taal is. Eén geeft aan dat het woord is opgenomen in het woordenboek van de taal (u kunt een afbeelding bekijken met een grafische beschrijving in de bijlagen). .

  1. Daarna worden de vectoren gegroepeerd. Bovendien wordt een zinsdeelmodel getraind op elk specifiek cluster om de overdracht van woordenschat tussen lexicaal niet-verwante talen te stoppen.
  2. De ALP beoordeelt het vermogen van een woordenboek om een ​​specifieke taal weer te geven.
  3. Het algoritme gebruiken voor het maken ULM woordenboeken is de volgende stap. die begint met een groot initieel woordenboek en het stapsgewijs afsnijdt totdat het aantal tokens onder een bepaalde drempel voor woordenboekgrootte ligt.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
Business Nieuwsverslag Technologie
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
3 mei 2024
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
Markten Nieuwsverslag Technologie
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
3 mei 2024
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
Markten Nieuwsverslag Technologie
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
3 mei 2024
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
Business Nieuwsverslag Technologie
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
3 mei 2024