19 de Setembro de 2023

Modelo Würstchen V2 vence Stable Diffusion XL com velocidade impressionante para geração de imagens de alta resolução

Publicado: 19 de setembro de 2023 às 3h50 Atualizado: 19 de setembro de 2023 às 4h39

Editado e verificado: 19 de setembro de 2023 às 3h50

Um tweet recente do autor de um artigo intitulado “Würstchen” (alemão para “salsicha”) chamou a atenção de entusiastas e especialistas. O tweet compartilhou os resultados intrigantes da geração de imagens usando o novo modelo Würstchen V2.

Modelo Würstchen V2 vence Stable Diffusion XL com velocidade impressionante para geração de imagens de alta resolução

Relacionado: Midjourney 5.2 e Stable Diffusion Atualizações do SDXL 0.9 para geração criativa de texto para imagem

Würstchen é rápido e eficiente, gerando imagens mais rapidamente que modelos como Stable Diffusion XL enquanto usa menos memória. Ele também reduziu os custos de treinamento, com o Würstchen v1 exigindo apenas 9,000 horas de treinamento de GPU em resoluções de 512×512, em comparação com 150,000 horas de GPU gastas em Stable Diffusion 1.4. Esta redução de 16x no custo não só beneficia os investigadores que realizam novas experiências, mas também abre a porta para que mais organizações treinem tais modelos. O Würstchen v2 usou 24,602 horas de GPU, tornando-o 6x mais barato que o SD1.4, que foi treinado apenas em 512×512.

Um recurso de destaque que imediatamente chamou a atenção da comunidade de IA é a velocidade impressionante do Würstchen V2. Segundo o autor, gerar quatro imagens 1024×2048 usando este modelo leva apenas 7 segundos. Para colocar isso em perspectiva, o modelo SDXL exigiria 40 segundos comparativamente lentos para realizar a mesma tarefa.

Würstchen V1, apresentado anteriormente, compartilha sua base com SDXL como um Latente Modelo de difusão mas incorpora uma arquitetura Unet mais rápida. Como a comunidade aguarda ansiosamente mais detalhes sobre a arquitetura do Würstchen V2, a velocidade aprimorada por si só o marca como um desenvolvimento digno de nota.

Würstchen V2 é um modelo de difusão que funciona em um espaço latente de imagens altamente compactado, reduzindo custos computacionais para treinamento e inferência em ordens de grandeza. Ele emprega um design inovador que atinge uma compressão espacial de 42x, um feito nunca visto anteriormente. Würstchen emprega uma compactação de dois estágios, Estágio A e Estágio B, que decodifica imagens compactadas de volta no espaço de pixels. Um terceiro modelo, o Estágio C, é aprendido no espaço latente altamente compactado, exigindo frações da computação usada para modelos atuais de alto desempenho, ao mesmo tempo que permite inferência mais barata e mais rápida.

Würstchen V2 compreende dois estágios de difusão:

Estágio A: Este estágio envolve difusão condicionada por texto e possui impressionantes 1 bilhão de parâmetros. A aceleração aqui é alcançada através de técnicas de compressão ultra-alta. Notavelmente, em vez do tamanho de código oculto de 128x128x4, como visto no SDXL, o Würstchen V2 opera inicialmente com uma resolução de 24x24x16. Isso significa menos pixels, mas mais canais, resultando em um aumento significativo de velocidade.

Fase B: Trata-se de um modelo de difusão equipado com 600 milhões de parâmetros, responsável por descomprimir a imagem de 24×24 para uma resolução de 128×128.

Completando o processo está um decodificador com 20 milhões de parâmetros que transforma o código oculto em uma imagem renderizada.

O benefício prático que se destaca imediatamente é a notável velocidade do Würstchen V2. Ele opera a uma velocidade 2 a 2.5 vezes mais rápida que o SDXL, um avanço notável no campo de Geração de imagem de IA.

Tal como acontece com qualquer inovação tecnológica, podem existir compensações. Em termos de qualidade de imagem, alguns especialistas sugerem uma ligeira perda, embora ainda se aguarde uma comparação abrangente e honesta para fornecer evidências concretas.

Exemplos de texto para imagem gerados estão abaixo:

Leia mais tópicos relacionados:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov