XLM-V: новый метод многоязычных маскированных языковых моделей, который пытается решить проблему узкого места в словарном запасе
Коротко
В статье поднимается следующая проблема: языковые модели параметры увеличиваются, растут в глубину, но словарный запас остается прежним по размеру.
Исследователи неожиданно начинают обучать новую модель с 1 миллионом токенов из словаря.
Исследователи были полны решимости увидеть, какие улучшения они могли бы сделать с таким значительным увеличением токенов.
Вопрос, поднятый гайд под названием «XLM-V: Преодоление узкого места словарного запаса в многоязычных маскированных языковых моделях» заключается в том, что при увеличении параметров и глубины языковых моделей размер их словарного запаса остается неизменным. Например, модель mT5 имеет 13 миллиардов параметров, но словарь состоит из 250 тысяч слов и поддерживает более 100 языков. Таким образом, каждый язык имеет примерно 2,500 уникальных токенов, что, очевидно, очень мало.
Какие действия предпринимают авторы? Они начинают обучать новую модель с 1 миллионом токенов из словаря неожиданным образом. Ранее существовал XLM-R, однако с этим обновлением он станет XLM-V. Авторы были полны решимости посмотреть, какие улучшения они могут сделать с таким значительным увеличением токенов.
Связанная статья: Ожидается, что к 100 году затраты на обучение моделей искусственного интеллекта вырастут со 500 до 2030 миллионов долларов. |
Что нового в XLM-V, чего не было в XLM-R?
Улучшение Многоязычные модели Метод Language-Clustered Vocabularies используется для построения векторов лексической репрезентации для каждого языка следующим образом: для каждого языка в множестве языков они составляют бинарный вектор, каждый элемент которого является конкретным словом в языке. Один указывает на то, что слово включено в словарь языка (вы можете просмотреть изображение с графическим описанием во вложениях). .
- После этого векторы группируются. Кроме того, на каждом конкретном кластере обучается модель предложения, чтобы остановить перенос словарного запаса между лексически неродственными языками.
- ALP оценивает способность словаря представлять конкретный язык.
- Используя алгоритм создания УЛМ словари является следующим шагом. который начинается с большого начального словаря и постепенно сокращает его до тех пор, пока количество токенов не станет ниже определенного порога для размера словаря.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.