XLM-V: um novo método de modelos de linguagem mascarada multilíngüe que tenta resolver o problema do gargalo do vocabulário
Em Breve
O artigo levanta o seguinte problema: modelos de linguagem aumenta em parâmetros, cresce em profundidade, mas o vocabulário continua o mesmo em tamanho.
Pesquisadores começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada.
Os pesquisadores estavam determinados a ver que tipo de melhoria eles poderiam fazer com um aumento tão significativo de tokens.
A questão levantada pelo artigo intitulado “XLM-V: superando o gargalo do vocabulário em modelos de linguagem mascarados multilíngues” é que quando os parâmetros e a profundidade dos modelos de linguagem aumentam, seus tamanhos de vocabulário permanecem inalterados. Por exemplo, o modelo mT5 tem parâmetros 13B, mas um vocabulário de 250 mil palavras que suporta mais de 100 idiomas. Assim, cada idioma possui aproximadamente 2,500 tokens únicos, o que obviamente é um número muito pequeno.
Que ação os autores tomam? Eles começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada. XLM-R existia anteriormente, porém, com esta atualização, ele se tornará XLM-V. Os escritores estavam determinados a ver que tipo de melhoria poderiam fazer com um aumento tão significativo nos tokens.
Artigo relacionado: Os custos de treinamento do modelo de IA devem aumentar de US$ 100 milhões para US$ 500 milhões até 2030 |
O que há de novo no XLM-V que o XLM-R não tinha?
A Melhoria Modelos multilíngues com o método Language-Clustered Vocabularies é usado para construir vetores de representação lexical para cada idioma da seguinte forma: para cada idioma no conjunto de idiomas, eles formam um vetor binário, cada elemento do qual é uma palavra específica no idioma. Uma indica que a palavra está incluída no dicionário do idioma (você pode ver uma imagem com uma descrição gráfica nos anexos). No entanto, ao criar um vetor utilizando a probabilidade logarítmica negativa de ocorrência de cada lexema, os autores aprimoram a forma como as referências são feitas .
- Os vetores são agrupados depois disso. Além disso, um modelo de sentença é treinado em cada cluster específico para interromper a transferência de vocabulário entre idiomas lexicalmente não relacionados.
- O ALP avalia a capacidade de um dicionário representar uma língua específica.
- Utilizando o algoritmo para criar ULM dicionários é o passo seguinte. que começa com um grande dicionário inicial e o reduz gradualmente até que o número de tokens esteja abaixo de um certo limite para o tamanho do dicionário.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.