Новостной репортаж Технологии
06 февраля 2023

XLM-V: новый метод многоязычных маскированных языковых моделей, который пытается решить проблему узкого места в словарном запасе

Коротко

В статье поднимается следующая проблема: языковые модели параметры увеличиваются, растут в глубину, но словарный запас остается прежним по размеру.

Исследователи неожиданно начинают обучать новую модель с 1 миллионом токенов из словаря.

Исследователи были полны решимости увидеть, какие улучшения они могли бы сделать с таким значительным увеличением токенов.

Вопрос, поднятый гайд под названием «XLM-V: Преодоление узкого места словарного запаса в многоязычных маскированных языковых моделях» заключается в том, что при увеличении параметров и глубины языковых моделей размер их словарного запаса остается неизменным. Например, модель mT5 имеет 13 миллиардов параметров, но словарь состоит из 250 тысяч слов и поддерживает более 100 языков. Таким образом, каждый язык имеет примерно 2,500 уникальных токенов, что, очевидно, очень мало.

XLM-V: новый метод моделей многоязычных маскированных языков, который пытается решить проблему узкого места в словарном запасе.
@ Midjourney / Шалв

Какие действия предпринимают авторы? Они начинают обучать новую модель с 1 миллионом токенов из словаря неожиданным образом. Ранее существовал XLM-R, однако с этим обновлением он станет XLM-V. Авторы были полны решимости посмотреть, какие улучшения они могут сделать с таким значительным увеличением токенов.

Связанная статья: Ожидается, что к 100 году затраты на обучение моделей искусственного интеллекта вырастут со 500 до 2030 миллионов долларов.

Что нового в XLM-V, чего не было в XLM-R?

Что нового в XLM-V, чего не было в XLM-R?

Улучшение Многоязычные модели Метод Language-Clustered Vocabularies используется для построения векторов лексической репрезентации для каждого языка следующим образом: для каждого языка в множестве языков они составляют бинарный вектор, каждый элемент которого является конкретным словом в языке. Один указывает на то, что слово включено в словарь языка (вы можете просмотреть изображение с графическим описанием во вложениях). .

  1. После этого векторы группируются. Кроме того, на каждом конкретном кластере обучается модель предложения, чтобы остановить перенос словарного запаса между лексически неродственными языками.
  2. ALP оценивает способность словаря представлять конкретный язык.
  3. Используя алгоритм создания УЛМ словари является следующим шагом. который начинается с большого начального словаря и постепенно сокращает его до тех пор, пока количество токенов не станет ниже определенного порога для размера словаря.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
Бизнес Новостной репортаж Технологии
Injective объединяет усилия с AltLayer, чтобы внести изменения в безопасность в inEVM
3 мая 2024
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
Области применения: Новостной репортаж Технологии
Masa объединяется с Teller, чтобы представить кредитный пул MASA, позволяющий заимствовать USDC на базе
3 мая 2024
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
Области применения: Новостной репортаж Технологии
Velodrome запускает бета-версию Superchain в ближайшие недели и распространяется на блокчейны второго уровня стека OP
3 мая 2024
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
Бизнес Новостной репортаж Технологии
CARV объявляет о партнерстве с Aethir для децентрализации уровня данных и распределения вознаграждений
3 мая 2024
CRYPTOMERIA LABS PTE. ООО