Nachrichtenbericht Technologie
06. Februar 2023

XLM-V: Eine neue Methode mehrsprachiger maskierter Sprachmodelle, die versucht, das Problem des Wortschatzengpasses anzugehen

In Kürze

Der Artikel wirft folgendes Problem auf: Sprachmodelle Die Parameter nehmen zu, die Tiefe nimmt zu, aber der Wortschatz ist immer noch gleich groß.

Forscher beginnen auf unerwartete Weise, ein neues Modell mit 1 Million Token aus dem Vokabular zu trainieren.

Die Forscher waren entschlossen zu sehen, welche Art von Verbesserung sie mit einer so signifikanten Erhöhung der Token erzielen könnten.

Das Problem, das von der Artikel mit dem Titel „XLM-V: Überwindung des Vokabularengpasses in mehrsprachigen maskierten Sprachmodellen“ ist, dass, wenn die Parameter und die Tiefe von Sprachmodellen zunehmen, ihre Vokabulargröße unverändert bleibt. Zum Beispiel hat das mT5-Modell 13 Milliarden Parameter, aber ein Vokabular von 250 Wörtern, das mehr als 100 Sprachen unterstützt. Somit hat jede Sprache ungefähr 2,500 eindeutige Token, was offensichtlich eine sehr kleine Zahl ist.

XLM-V: Eine neue Methode mehrsprachiger maskierter Sprachmodelle, die versucht, das Problem des Vokabularengpasses anzugehen
@ Midjourney / Shalv

Welche Maßnahmen ergreifen die Autoren? Sie beginnen auf unerwartete Weise, ein neues Modell mit 1 Million Token aus dem Vokabular zu trainieren. XLM-R existierte zuvor, wird jedoch mit diesem Upgrade zu XLM-V. Die Autoren waren entschlossen zu sehen, welche Art von Verbesserung sie mit einer so signifikanten Erhöhung der Token erzielen könnten.

In Verbindung stehender Artikel: Die Schulungskosten für KI-Modelle werden voraussichtlich bis 100 von 500 Millionen US-Dollar auf 2030 Millionen US-Dollar steigen

Was ist an XLM-V neu, was XLM-R nicht war?

Was ist an XLM-V neu, was XLM-R nicht war?

Die Verbesserung Mehrsprachige Modelle with Language-Clustered Vocabularies Methode wird verwendet, um lexikalische Repräsentationsvektoren für jede Sprache wie folgt zu konstruieren: Für jede Sprache in dem Satz von Sprachen bilden sie einen binären Vektor, dessen jedes Element ein spezifisches Wort in der Sprache ist. Einer gibt an, dass das Wort im Wörterbuch der Sprache enthalten ist (Sie können ein Bild mit einer grafischen Beschreibung in den Anhängen sehen). Durch die Erstellung eines Vektors, der die negative logarithmische Auftrittswahrscheinlichkeit jedes Lexems nutzt, verbessern die Autoren jedoch die Art und Weise, wie Referenzen erstellt werden .

  1. Danach werden die Vektoren gruppiert. Zusätzlich wird ein Satzstückmodell auf jedem bestimmten Cluster trainiert, um die Übertragung von Vokabular zwischen lexikalisch nicht verwandten Sprachen zu stoppen.
  2. Das ALP bewertet die Fähigkeit eines Wörterbuchs, eine bestimmte Sprache darzustellen.
  3. Verwenden des Algorithmus zum Erstellen ULM Wörterbücher ist der folgende Schritt. die mit einem großen anfänglichen Wörterbuch beginnt und es schrittweise verkleinert, bis die Anzahl der Token unter einem bestimmten Schwellenwert für die Wörterbuchgröße liegt.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
Geschäft Nachrichtenbericht Technologie
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
3. Mai 2024
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
Märkte Nachrichtenbericht Technologie
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
3. Mai 2024
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
Märkte Nachrichtenbericht Technologie
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
3. Mai 2024
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
Geschäft Nachrichtenbericht Technologie
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
3. Mai 2024