Relatório de notícias Equipar
06 de fevereiro de 2023

XLM-V: um novo método de modelos de linguagem mascarada multilíngüe que tenta resolver o problema do gargalo do vocabulário

Em Breve

O artigo levanta o seguinte problema: modelos de linguagem aumenta em parâmetros, cresce em profundidade, mas o vocabulário continua o mesmo em tamanho.

Pesquisadores começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada.

Os pesquisadores estavam determinados a ver que tipo de melhoria eles poderiam fazer com um aumento tão significativo de tokens.

A questão levantada pelo artigo intitulado “XLM-V: superando o gargalo do vocabulário em modelos de linguagem mascarados multilíngues” é que quando os parâmetros e a profundidade dos modelos de linguagem aumentam, seus tamanhos de vocabulário permanecem inalterados. Por exemplo, o modelo mT5 tem parâmetros 13B, mas um vocabulário de 250 mil palavras que suporta mais de 100 idiomas. Assim, cada idioma possui aproximadamente 2,500 tokens únicos, o que obviamente é um número muito pequeno.

XLM-V: Um novo método de Multilingual Masked Language Models que tenta resolver o problema do gargalo do vocabulário
@ Midjourney /Shalv

Que ação os autores tomam? Eles começam a treinar um novo modelo com 1 milhão de tokens do vocabulário de forma inesperada. XLM-R existia anteriormente, porém, com esta atualização, ele se tornará XLM-V. Os escritores estavam determinados a ver que tipo de melhoria poderiam fazer com um aumento tão significativo nos tokens.

Artigo relacionado: Os custos de treinamento do modelo de IA devem aumentar de US$ 100 milhões para US$ 500 milhões até 2030

O que há de novo no XLM-V que o XLM-R não tinha?

O que há de novo no XLM-V que o XLM-R não tinha?

A Melhoria Modelos multilíngues com o método Language-Clustered Vocabularies é usado para construir vetores de representação lexical para cada idioma da seguinte forma: para cada idioma no conjunto de idiomas, eles formam um vetor binário, cada elemento do qual é uma palavra específica no idioma. Uma indica que a palavra está incluída no dicionário do idioma (você pode ver uma imagem com uma descrição gráfica nos anexos). No entanto, ao criar um vetor utilizando a probabilidade logarítmica negativa de ocorrência de cada lexema, os autores aprimoram a forma como as referências são feitas .

  1. Os vetores são agrupados depois disso. Além disso, um modelo de sentença é treinado em cada cluster específico para interromper a transferência de vocabulário entre idiomas lexicalmente não relacionados.
  2. O ALP avalia a capacidade de um dicionário representar uma língua específica.
  3. Utilizando o algoritmo para criar ULM dicionários é o passo seguinte. que começa com um grande dicionário inicial e o reduz gradualmente até que o número de tokens esteja abaixo de um certo limite para o tamanho do dicionário.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

O frenesi DOGE: analisando o recente aumento de valor do Dogecoin (DOGE)

A indústria de criptomoedas está se expandindo rapidamente e as moedas meme estão se preparando para um aumento significativo. Dogecoin (DOGE), ...

Saber Mais

A evolução do conteúdo gerado por IA no metaverso

O surgimento de conteúdo generativo de IA é um dos desenvolvimentos mais fascinantes dentro do ambiente virtual...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
Digerir O negócio Mercados Equipar
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
26 de abril de 2024
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
Relatório de notícias Equipar
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
26 de abril de 2024
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
Relatório de notícias Software Equipar
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
26 de abril de 2024
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal
Relatório de notícias Equipar
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal 
26 de abril de 2024
CRYPTOMERIA LABS PTE. LTDA.