Relatório de notícias Tecnologia
19 de Setembro de 2023

Modelo Würstchen V2 vence Stable Diffusion XL com velocidade impressionante para geração de imagens de alta resolução

Um tweet recente do autor de um artigo intitulado “Würstchen” (alemão para “salsicha”) chamou a atenção de entusiastas e especialistas. O tweet compartilhou os resultados intrigantes da geração de imagens usando o novo modelo Würstchen V2.

Modelo Würstchen V2 vence Stable Diffusion XL com velocidade impressionante para geração de imagens de alta resolução
Relacionado: Midjourney 5.2 e Stable Diffusion Atualizações do SDXL 0.9 para geração criativa de texto para imagem

Würstchen é rápido e eficiente, gerando imagens mais rapidamente que modelos como Stable Diffusion XL enquanto usa menos memória. Ele também reduziu os custos de treinamento, com o Würstchen v1 exigindo apenas 9,000 horas de treinamento de GPU em resoluções de 512×512, em comparação com 150,000 horas de GPU gastas em Stable Diffusion 1.4. Esta redução de 16x no custo não só beneficia os investigadores que realizam novas experiências, mas também abre a porta para que mais organizações treinem tais modelos. O Würstchen v2 usou 24,602 horas de GPU, tornando-o 6x mais barato que o SD1.4, que foi treinado apenas em 512×512.

Um recurso de destaque que imediatamente chamou a atenção da comunidade de IA é a velocidade impressionante do Würstchen V2. Segundo o autor, gerar quatro imagens 1024×2048 usando este modelo leva apenas 7 segundos. Para colocar isso em perspectiva, o modelo SDXL exigiria 40 segundos comparativamente lentos para realizar a mesma tarefa.

Würstchen V1, apresentado anteriormente, compartilha sua base com SDXL como um Latente Modelo de difusão mas incorpora uma arquitetura Unet mais rápida. Como a comunidade aguarda ansiosamente mais detalhes sobre a arquitetura do Würstchen V2, a velocidade aprimorada por si só o marca como um desenvolvimento digno de nota.

Würstchen V2 é um modelo de difusão que funciona em um espaço latente de imagens altamente compactado, reduzindo custos computacionais para treinamento e inferência em ordens de grandeza. Ele emprega um design inovador que atinge uma compressão espacial de 42x, um feito nunca visto anteriormente. Würstchen emprega uma compactação de dois estágios, Estágio A e Estágio B, que decodifica imagens compactadas de volta no espaço de pixels. Um terceiro modelo, o Estágio C, é aprendido no espaço latente altamente compactado, exigindo frações da computação usada para modelos atuais de alto desempenho, ao mesmo tempo que permite inferência mais barata e mais rápida.

Würstchen V2 compreende dois estágios de difusão:

  • Estágio A: Este estágio envolve difusão condicionada por texto e possui impressionantes 1 bilhão de parâmetros. A aceleração aqui é alcançada através de técnicas de compressão ultra-alta. Notavelmente, em vez do tamanho de código oculto de 128x128x4, como visto no SDXL, o Würstchen V2 opera inicialmente com uma resolução de 24x24x16. Isso significa menos pixels, mas mais canais, resultando em um aumento significativo de velocidade.
  • Fase B: Trata-se de um modelo de difusão equipado com 600 milhões de parâmetros, responsável por descomprimir a imagem de 24×24 para uma resolução de 128×128.

Completando o processo está um decodificador com 20 milhões de parâmetros que transforma o código oculto em uma imagem renderizada.

O benefício prático que se destaca imediatamente é a notável velocidade do Würstchen V2. Ele opera a uma velocidade 2 a 2.5 vezes mais rápida que o SDXL, um avanço notável no campo de Geração de imagem de IA.

Tal como acontece com qualquer inovação tecnológica, podem existir compensações. Em termos de qualidade de imagem, alguns especialistas sugerem uma ligeira perda, embora ainda se aguarde uma comparação abrangente e honesta para fornecer evidências concretas.

Exemplos de texto para imagem gerados estão abaixo:

Leia mais tópicos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
O negócio Mercados Histórias e resenhas Tecnologia
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
10 de maio de 2024
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
Mercados Relatório de notícias Tecnologia
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
10 de maio de 2024
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
Mercados Segurança Wiki Software Histórias e resenhas Tecnologia
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
10 de maio de 2024
Ethereum Layer 2 Network Mint, movida a otimismo, lançará sua rede principal em 15 de maio
Relatório de notícias Tecnologia
Ethereum Layer 2 Network Mint, movida a otimismo, lançará sua rede principal em 15 de maio
10 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.