XLM-V: 어휘 병목 문제를 해결하기 위한 다국어 마스킹된 언어 모델의 새로운 방법
요컨대
이 기사는 다음과 같은 문제를 제기합니다. 언어 모델 매개변수가 증가하고 깊이도 커지지만 어휘의 크기는 여전히 동일합니다.
연구자들은 예상치 못한 방식으로 어휘에서 백만 개의 토큰을 사용하여 새 모델을 교육하기 시작합니다.
연구원들은 토큰의 상당한 증가로 어떤 종류의 개선을 할 수 있는지 확인하기로 결정했습니다.
에서 제기한 문제 기사 "XLM-V: Multilingual Masked Language Models의 Vocabulary Bottleneck 극복"이라는 제목은 언어 모델의 매개변수와 깊이가 증가해도 어휘 크기는 그대로 유지된다는 것입니다. 예를 들어 mT5 모델에는 13억 개의 매개변수가 있지만 250개 이상의 언어를 지원하는 100만 단어의 어휘가 있습니다. 따라서 각 언어에는 약 2,500개의 고유한 토큰이 있으며 이는 매우 적은 수입니다.
작성자는 어떤 조치를 취합니까? 그들은 예상치 못한 방식으로 어휘에서 백만 개의 토큰으로 새 모델을 교육하기 시작합니다. 이전에는 XLM-R이 있었지만 이번 업그레이드에서는 XLM-V가 됩니다. 작가들은 토큰의 상당한 증가로 어떤 종류의 개선을 할 수 있는지 확인하기로 결정했습니다.
XLM-V는 XLM-R에는 없었던 새로운 기능입니까?
개선 다국어 모델 Language-Clustered Vocabularies 방법은 다음과 같이 각 언어에 대한 어휘 표현 벡터를 구성하는 데 사용됩니다. 언어 집합의 각 언어에 대해 각 요소가 언어의 특정 단어인 이진 벡터를 구성합니다. 하나는 해당 단어가 언어 사전에 포함되어 있음을 나타냅니다(첨부 파일에서 그래픽 설명이 있는 이미지를 볼 수 있음). 그러나 각 어휘소의 음의 대수 발생 확률을 활용하여 벡터를 생성함으로써 저자는 참조 방법을 향상시킵니다. .
- 그 후에 벡터가 그룹화됩니다. 또한 문장 모델은 어휘적으로 관련이 없는 언어 간의 어휘 전송을 중지하기 위해 각 특정 클러스터에서 훈련됩니다.
- ALP는 특정 언어를 나타내는 사전의 용량을 평가합니다.
- 생성 알고리즘 활용 울름 사전은 다음 단계입니다. 큰 초기 사전으로 시작하여 토큰 수가 사전 크기에 대한 특정 임계값 미만이 될 때까지 점진적으로 트리밍합니다.
AI에 대해 자세히 알아보기:
책임 부인
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.