Relatório de notícias Tecnologia
06 de fevereiro de 2023

XLM-V: um novo método de modelos de linguagem mascarada multilíngüe que tenta resolver o problema do gargalo do vocabulário

Em Breve

O artigo levanta o seguinte problema: modelos de linguagem aumenta em parâmetros, cresce em profundidade, mas o vocabulário continua o mesmo em tamanho.

Pesquisadores começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada.

Os pesquisadores estavam determinados a ver que tipo de melhoria eles poderiam fazer com um aumento tão significativo de tokens.

A questão levantada pelo artigo intitulado “XLM-V: superando o gargalo do vocabulário em modelos de linguagem mascarados multilíngues” é que quando os parâmetros e a profundidade dos modelos de linguagem aumentam, seus tamanhos de vocabulário permanecem inalterados. Por exemplo, o modelo mT5 tem parâmetros 13B, mas um vocabulário de 250 mil palavras que suporta mais de 100 idiomas. Assim, cada idioma possui aproximadamente 2,500 tokens únicos, o que obviamente é um número muito pequeno.

XLM-V: Um novo método de Multilingual Masked Language Models que tenta resolver o problema do gargalo do vocabulário
@ Midjourney /Shalv

Que ação os autores tomam? Eles começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada. XLM-R existia anteriormente, porém, com esta atualização, ele se tornará XLM-V. Os escritores estavam determinados a ver que tipo de melhoria poderiam fazer com um aumento tão significativo nos tokens.

Artigo relacionado: Os custos de treinamento do modelo de IA devem aumentar de US$ 100 milhões para US$ 500 milhões até 2030

O que há de novo no XLM-V que o XLM-R não tinha?

O que há de novo no XLM-V que o XLM-R não tinha?

A Melhoria Modelos multilíngues com o método Language-Clustered Vocabularies é usado para construir vetores de representação lexical para cada idioma da seguinte forma: para cada idioma no conjunto de idiomas, eles formam um vetor binário, cada elemento do qual é uma palavra específica no idioma. Uma indica que a palavra está incluída no dicionário do idioma (você pode ver uma imagem com uma descrição gráfica nos anexos). No entanto, ao criar um vetor utilizando a probabilidade logarítmica negativa de ocorrência de cada lexema, os autores aprimoram a forma como as referências são feitas .

  1. Os vetores são agrupados depois disso. Além disso, um modelo de sentença é treinado em cada cluster específico para interromper a transferência de vocabulário entre idiomas lexicalmente não relacionados.
  2. O ALP avalia a capacidade de um dicionário representar uma língua específica.
  3. Utilizando o algoritmo para criar ULM dicionários é o passo seguinte. que começa com um grande dicionário inicial e o reduz gradualmente até que o número de tokens esteja abaixo de um certo limite para o tamanho do dicionário.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (06-10.04)
Digerir O negócio Mercados Software Tecnologia
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (06-10.04)
10 de maio de 2024
StaFi integra suporte para LRT da EigenLayer em sua pilha de piquetagem líquida como serviço
Mercados Relatório de notícias Tecnologia
StaFi integra suporte para LRT da EigenLayer em sua pilha de piquetagem líquida como serviço
10 de maio de 2024
Endereços ativos de Bitcoin despencam para o mínimo de quatro anos, com previsão de atingir apenas 1.3 milhão no ciclo atual, revela analista de criptografia da Bloomberg
Mercados Relatório de notícias Tecnologia
Endereços ativos de Bitcoin despencam para o mínimo de quatro anos, com previsão de atingir apenas 1.3 milhão no ciclo atual, revela analista de criptografia da Bloomberg
10 de maio de 2024
MPost junta-se aos líderes do setor na campanha 'Bitcoin merece um emoji', apoiando a integração de símbolos do Bitcoin em todos os teclados virtuais
Estilo de vida Relatório de notícias Tecnologia
MPost junta-se aos líderes do setor na campanha 'Bitcoin merece um emoji', apoiando a integração de símbolos do Bitcoin em todos os teclados virtuais
10 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.