24 de novembro de 2022

Stability AI'S Stable Diffusion 2 Algoritmo é finalmente público: novo modelo depth2img, upscaler de super-resolução, sem conteúdo adulto

by Damir Yalalov

Publicado: 24 de novembro de 2022 às 3h18 Atualizado: 21 de março de 2024 às 11h41

by Victor Dey

Editado e verificado: 24 de novembro de 2022 às 3h18

Em Breve

Stable Diffusion O modelo 2.0 é mais rápido, de código aberto, escalável e mais robusto que o anterior

Stable Diffusion fica pronto para GPU com novos recursos para renderização em tempo real

Guiado em profundidade stable diffusion modelo – Imagem a imagem com novas ideias para aplicações criativas

Stability AI tem liberado um novo artigo em seu blog sobre Stable Diffusion 2. Nela, Stability AI propõe um novo algoritmo que é mais eficiente e robusto que o anterior, comparando-o com outros métodos de última geração.

IA aberta Stable Diffusion 2 Algoritmo é finalmente público: novo modelo depth2img, upscaler de super-resolução, sem conteúdo adulto

original da CompVis Stable Diffusion Modelo V1 revolucionou a natureza do código aberto Modelos de IA e produziu centenas de modelos e avanços diferentes em todo o mundo. Ele teve uma das subidas mais rápidas para 10,000 estrelas do Github, acumulando 33,000 em menos de dois meses, mais rápido do que mais programas no Github.

O original Stable Diffusion O lançamento da V1 foi liderado pela equipe dinâmica de Robin Rombach (Stability AI) e Patrick Esser (Runway ML) do Grupo CompVis na LMU Munique, liderado pelo Prof. Dr. Björn Ommer. Eles desenvolveram o trabalho anterior do laboratório com Latent Modelos de Difusão e recebeu apoio crítico de LAION e Eleuther AI.

O que faz Stable Diffusion v1 diferente de Stable Diffusion v2?

Stable Diffusion 2.0 inclui vários aprimoramentos e recursos significativos em relação à versão anterior, então vamos dar uma olhada neles.

A Stable Diffusion A versão 2.0 apresenta modelos robustos de conversão de texto em imagem treinados com um novo codificador de texto (OpenCLIP) desenvolvido pela LAION com assistência da Stability AI, o que melhora significativamente a qualidade do imagens geradas sobre as versões V1 anteriores. Os modelos de texto para imagem desta versão podem produzir imagens com resoluções padrão de 512 × 512 pixels e 768 × 768 pixels.

Esses modelos são treinados usando um subconjunto estético do conjunto de dados LAION-5B gerado por Stability AIda equipe DeepFloyd, que é então filtrada para excluir conteúdo adulto usando o filtro NSFW da LAION.

Avaliações usando 50 etapas de amostra DDIM, 50 escalas de orientação sem classificador e 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 e 8.0 indicam melhorias relativas dos pontos de verificação:

O que faz Stable Diffusion v1 diferente de Stable Diffusion v2?

Stable Diffusion 2.0 agora incorpora um modelo Upscaler Diffusion, que aumenta a resolução da imagem em um fator de quatro. Um exemplo do nosso modelo Upscaling uma imagem gerada de baixa qualidade (128×128) em uma imagem de resolução mais alta é mostrada abaixo (512×512). Stable Diffusion 2.0, quando combinado com nossos modelos de texto para imagem, agora pode gerar imagens com resoluções de 2048 × 2048 ou superior.

O novo guia de profundidade stable diffusion modelo, depth2img, estende o recurso anterior de imagem para imagem da V1 com possibilidades criativas totalmente novas. Depth2img determina a profundidade de uma imagem de entrada (usando um modelo existente) e então gera uma nova imagens com base no texto e nas informações detalhadas. Depth-to-Image pode fornecer uma infinidade de novos aplicativos criativos, oferecendo alterações que parecem significativamente diferentes do original, mantendo a coerência e a profundidade da imagem.

O que há de novo em Stable Diffusion 2?

O novo stable diffusion modelo oferece uma resolução de 768 × 768.
O U-Net tem a mesma quantidade de parâmetros da versão 1.5, mas é treinado do zero e usa o OpenCLIP-ViT/H como seu codificador de texto. Um chamado modelo de predição v é SD 2.0-v.
O modelo supracitado foi ajustado a partir do SD 2.0-base, que também está disponível e foi treinado como um modelo típico de previsão de ruído em imagens 512×512.
Um modelo de difusão guiada por texto latente com escala x4 foi adicionado.
Guiado por profundidade baseado em SD 2.0 refinado stable diffusion modelo. O modelo pode ser utilizado para img2img com preservação de estrutura e síntese condicional de forma e está condicionado a estimativas de profundidade monocular deduzidas pelo MiDaS.
Um modelo aprimorado de pintura interna guiada por texto construído sobre a base SD 2.0.

Os desenvolvedores trabalharam duro, assim como na iteração inicial de Stable Diffusion, para otimizar o modelo para execução em uma única GPU — eles queriam torná-lo acessível ao maior número de pessoas possível desde o início. Eles já viram o que acontece quando milhões de indivíduos colocam as mãos nesses modelos e colaboram para construir coisas absolutamente notáveis. Este é o poder do código aberto: aproveitar o vasto potencial de milhões de pessoas talentosas que podem não ter os recursos para treinar um modelo de ponta, mas têm a capacidade de fazer coisas incríveis com um.

Esta nova atualização, combinada com novos recursos poderosos como depth2img e melhores recursos de upscaling de resolução, servirá como base para uma infinidade de novos aplicativos e permitirá uma explosão de novo potencial criativo.

Leia mais sobre Stable Diffusion:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov