Relatório de notícias
06 de novembro de 2022

ERNIE-ViLG 2.0: O novo modelo de texto para imagem da Baidu supera o Dalle-2 e Stable Diffusion

Em Breve

Tanto Dalle-2 quanto Stable Diffusion foram significativamente superados por ERNIE-ViLG 2.0

ERNIE-ViLG 2.0 é um modelo de texto para imagem que oferece melhor desempenho do que Dalle-2 e Stable Diffusion, dois dos modelos de conversão de texto em imagem mais populares atualmente disponíveis. O novo modelo foi projetado e treinado por uma equipe de pesquisadores da Baidu, e os resultados são de tirar o fôlego.

O novo modelo de texto para imagem ERNIE-ViLG 2.0 supera Dalle-2 e Stable Diffusion
A imagem criada por ERNIE-ViLG 2.0

Os resultados demonstraram que ERNIE-ViLG 2.0 superou significativamente Dalle-2 e Stable Diffusion. Esta é uma conquista significativa e demonstra o poder da estrutura ERNIE. O Metaverse Post equipe comparou ERNIE-ViLG 2.0 com Stable Diffusion abaixo:

ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0
Stable Diffusion
ERNIE-ViLG 2.0

Esses resultados fornecem forte suporte para a hipótese de que o ERNIE-ViLG 2.0 é uma solução mais eficaz sistema de texto para imagem do que Dalle-2 e Stable Diffusion.

A arquitetura Unet de Stable Diffusion é tomado como base, mas com alterações:

  • Uma mistura de especialistas em remoção de ruído: Existem 10 redes neurais em vez de apenas uma, sendo cada uma responsável apenas por certas etapas de difusão.
  • Conhecimento textual: Reponderou automaticamente as palavras na consulta para que as palavras-chave tenham mais peso.
  • Conhecimento visual: Durante o treinamento, os objetos foram detectados nos resultados da geração intermediária e o peso da função de perda nas regiões com objetos foi aumentado.

Como resultado, o maior do mundo modelo de texto para imagem saiu com 24 bilhões de parâmetros (10 vezes maior que SD) para treinar o modelo.

Em comparação com os modelos anteriores, o ERNIE-ViLG 2.0 os excede muito em termos de qualidade de imagem e correspondência de imagem para texto quando testado simultaneamente no ViLG-300 bilíngue. pronto definido por uma pessoa.

Os prompts são simplesmente traduzidos do chinês para o inglês automaticamente no Abraçando o Rosto demonstração pública antes de ser enviado para a IA. Muitos recursos fluem disso.

  • ERNIE não conhece figuras públicas internacionais. Por exemplo, ERNIE não conhece Arnold Schwarzenegger. Certamente tem favoritos locais na China.
  • Como resultado, o método de usar nomes de celebridades em prompts aumenta drasticamente a qualidade do rostos falha.
  • Você pode esperar alguma distorção por causa da tradução do chinês, então pode haver algumas surpresas para você se você não fala chinês.
  • Ele nem sabe nada sobre Greg Rutkowski.

Leia artigos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
O negócio Relatório de notícias Equipar
Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM
3 de maio de 2024
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
Mercados Relatório de notícias Equipar
Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base
3 de maio de 2024
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
Mercados Relatório de notícias Equipar
Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2
3 de maio de 2024
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
O negócio Relatório de notícias Equipar
CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas
3 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.