Modelo Würstchen V2 vence Stable Diffusion XL com velocidade impressionante para geração de imagens de alta resolução
Um tweet recente do autor de um artigo intitulado “Würstchen” (alemão para “salsicha”) chamou a atenção de entusiastas e especialistas. O tweet compartilhou os resultados intrigantes da geração de imagens usando o novo modelo Würstchen V2.
Relacionado: Midjourney 5.2 e Stable Diffusion Atualizações do SDXL 0.9 para geração criativa de texto para imagem |
Würstchen é rápido e eficiente, gerando imagens mais rapidamente que modelos como Stable Diffusion XL enquanto usa menos memória. Ele também reduziu os custos de treinamento, com o Würstchen v1 exigindo apenas 9,000 horas de treinamento de GPU em resoluções de 512×512, em comparação com 150,000 horas de GPU gastas em Stable Diffusion 1.4. Esta redução de 16x no custo não só beneficia os investigadores que realizam novas experiências, mas também abre a porta para que mais organizações treinem tais modelos. O Würstchen v2 usou 24,602 horas de GPU, tornando-o 6x mais barato que o SD1.4, que foi treinado apenas em 512×512.
Würstchen V2 é um modelo de difusão que funciona em um espaço latente de imagens altamente compactado, reduzindo custos computacionais para treinamento e inferência em ordens de grandeza. Ele emprega um design inovador que atinge uma compressão espacial de 42x, um feito nunca visto anteriormente. Würstchen emprega uma compactação de dois estágios, Estágio A e Estágio B, que decodifica imagens compactadas de volta no espaço de pixels. Um terceiro modelo, o Estágio C, é aprendido no espaço latente altamente compactado, exigindo frações da computação usada para modelos atuais de alto desempenho, ao mesmo tempo que permite inferência mais barata e mais rápida.
Würstchen V2 compreende dois estágios de difusão:
- Estágio A: Este estágio envolve difusão condicionada por texto e possui impressionantes 1 bilhão de parâmetros. A aceleração aqui é alcançada através de técnicas de compressão ultra-alta. Notavelmente, em vez do tamanho de código oculto de 128x128x4, como visto no SDXL, o Würstchen V2 opera inicialmente com uma resolução de 24x24x16. Isso significa menos pixels, mas mais canais, resultando em um aumento significativo de velocidade.
- Fase B: Trata-se de um modelo de difusão equipado com 600 milhões de parâmetros, responsável por descomprimir a imagem de 24×24 para uma resolução de 128×128.
Completando o processo está um decodificador com 20 milhões de parâmetros que transforma o código oculto em uma imagem renderizada.
O benefício prático que se destaca imediatamente é a notável velocidade do Würstchen V2. Ele opera a uma velocidade 2 a 2.5 vezes mais rápida que o SDXL, um avanço notável no campo de Geração de imagem de IA.
Tal como acontece com qualquer inovação tecnológica, podem existir compensações. Em termos de qualidade de imagem, alguns especialistas sugerem uma ligeira perda, embora ainda se aguarde uma comparação abrangente e honesta para fornecer evidências concretas.
Exemplos de texto para imagem gerados estão abaixo:
Leia mais tópicos relacionados:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.