Relatório de notícias
06 de novembro de 2022

ERNIE-ViLG 2.0: O novo modelo de texto para imagem da Baidu supera o Dalle-2 e Stable Diffusion

Em Breve

Tanto Dalle-2 quanto Stable Diffusion foram significativamente superados por ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 é um modelo de texto para imagem que oferece melhor desempenho do que Dalle-2 e Stable Diffusion, dois dos modelos de conversão de texto em imagem mais populares atualmente disponíveis. O novo modelo foi projetado e treinado por uma equipe de pesquisadores da Baidu, e os resultados são de tirar o fôlego.

O novo modelo de texto para imagem ERNIE-ViLG 2.0 supera Dalle-2 e Stable Diffusion
A imagem criada por ERNIE-ViLG 2.0

Os resultados demonstraram que ERNIE-ViLG 2.0 superou significativamente Dalle-2 e Stable Diffusion. Esta é uma conquista significativa e demonstra o poder da estrutura ERNIE. O Metaverse Post equipe comparou ERNIE-ViLG 2.0 com Stable Diffusion abaixo:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Esses resultados fornecem forte suporte para a hipótese de que o ERNIE-ViLG 2.0 é uma solução mais eficaz sistema de texto para imagem do que Dalle-2 e Stable Diffusion.

A arquitetura Unet de Stable Diffusion é tomado como base, mas com alterações:

  • Uma mistura de especialistas em remoção de ruído: Existem 10 redes neurais em vez de apenas uma, sendo cada uma responsável apenas por certas etapas de difusão.
  • Conhecimento textual: Reponderou automaticamente as palavras na consulta para que as palavras-chave tenham mais peso.
  • Conhecimento visual: Durante o treinamento, os objetos foram detectados nos resultados da geração intermediária e o peso da função de perda nas regiões com objetos foi aumentado.

Como resultado, o maior do mundo modelo de texto para imagem saiu com 24 bilhões de parâmetros (10 vezes maior que SD) para treinar o modelo.

Em comparação com os modelos anteriores, o ERNIE-ViLG 2.0 os excede muito em termos de qualidade de imagem e correspondência de imagem para texto quando testado simultaneamente no ViLG-300 bilíngue. pronto definido por uma pessoa.

Os prompts são simplesmente traduzidos do chinês para o inglês automaticamente no Abraçando o Rosto demonstração pública antes de ser enviado para a IA. Muitos recursos fluem disso.

  • ERNIE não conhece figuras públicas internacionais. Por exemplo, ERNIE não conhece Arnold Schwarzenegger. Certamente tem favoritos locais na China.
  • Como resultado, o método de usar nomes de celebridades em prompts aumenta drasticamente a qualidade do rostos falha.
  • Você pode esperar alguma distorção por causa da tradução do chinês, então pode haver algumas surpresas para você se você não fala chinês.
  • Ele nem sabe nada sobre Greg Rutkowski.

Leia artigos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

O frenesi DOGE: analisando o recente aumento de valor do Dogecoin (DOGE)

A indústria de criptomoedas está se expandindo rapidamente e as moedas meme estão se preparando para um aumento significativo. Dogecoin (DOGE), ...

Saber Mais

A evolução do conteúdo gerado por IA no metaverso

O surgimento de conteúdo generativo de IA é um dos desenvolvimentos mais fascinantes dentro do ambiente virtual...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
Digerir O negócio Mercados Equipar
As principais ofertas desta semana, grandes investimentos em IA, TI, Web3e criptografia (22-26.04)
26 de abril de 2024
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
Relatório de notícias Equipar
Vitalik Buterin comenta sobre centralização do PoW, observa que era um estágio temporário até o PoS
26 de abril de 2024
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
Relatório de notícias Software Equipar
Offchain Labs revela descoberta de duas vulnerabilidades críticas nas provas de fraude do OP Stack do Optimism
26 de abril de 2024
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal
Relatório de notícias Equipar
Mercado aberto da Dymension para aumentar a liquidez da RollApps eIBC é lançado na rede principal 
26 de abril de 2024
CRYPTOMERIA LABS PTE. LTDA.