Stability AI'S Stable Diffusion 2 Algoritmo é finalmente público: novo modelo depth2img, upscaler de super-resolução, sem conteúdo adulto
Em Breve
Stable Diffusion O modelo 2.0 é mais rápido, de código aberto, escalável e mais robusto que o anterior
Stable Diffusion fica pronto para GPU com novos recursos para renderização em tempo real
Guiado em profundidade stable diffusion modelo – Imagem a imagem com novas ideias para aplicações criativas
Stability AI tem liberado um novo artigo em seu blog sobre Stable Diffusion 2. Nela, Stability AI propõe um novo algoritmo que é mais eficiente e robusto que o anterior, comparando-o com outros métodos de última geração.
original da CompVis Stable Diffusion Modelo V1 revolucionou a natureza do código aberto Modelos de IA e produziu centenas de modelos e avanços diferentes em todo o mundo. Ele teve uma das subidas mais rápidas para 10,000 estrelas do Github, acumulando 33,000 em menos de dois meses, mais rápido do que mais programas no Github.
O original Stable Diffusion O lançamento da V1 foi liderado pela equipe dinâmica de Robin Rombach (Stability AI) e Patrick Esser (Runway ML) do Grupo CompVis na LMU Munique, liderado pelo Prof. Dr. Björn Ommer. Eles desenvolveram o trabalho anterior do laboratório com Latent Modelos de Difusão e recebeu apoio crítico de LAION e Eleuther AI.
O que faz Stable Diffusion v1 diferente de Stable Diffusion v2?
Stable Diffusion 2.0 inclui vários aprimoramentos e recursos significativos em relação à versão anterior, então vamos dar uma olhada neles.
A Stable Diffusion A versão 2.0 apresenta modelos robustos de conversão de texto em imagem treinados com um novo codificador de texto (OpenCLIP) desenvolvido pela LAION com assistência da Stability AI, o que melhora significativamente a qualidade do imagens geradas sobre as versões V1 anteriores. Os modelos de texto para imagem desta versão podem produzir imagens com resoluções padrão de 512 × 512 pixels e 768 × 768 pixels.
Esses modelos são treinados usando um subconjunto estético do conjunto de dados LAION-5B gerado por Stability AIda equipe DeepFloyd, que é então filtrada para excluir conteúdo adulto usando o filtro NSFW da LAION.
Avaliações usando 50 etapas de amostra DDIM, 50 escalas de orientação sem classificador e 1.5, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0 e 8.0 indicam melhorias relativas dos pontos de verificação:
Stable Diffusion 2.0 agora incorpora um modelo Upscaler Diffusion, que aumenta a resolução da imagem em um fator de quatro. Um exemplo do nosso modelo Upscaling uma imagem gerada de baixa qualidade (128×128) em uma imagem de resolução mais alta é mostrada abaixo (512×512). Stable Diffusion 2.0, quando combinado com nossos modelos de texto para imagem, agora pode gerar imagens com resoluções de 2048 × 2048 ou superior.
O novo guia de profundidade stable diffusion modelo, depth2img, estende o recurso anterior de imagem para imagem da V1 com possibilidades criativas totalmente novas. Depth2img determina a profundidade de uma imagem de entrada (usando um modelo existente) e então gera uma nova imagens com base no texto e nas informações detalhadas. Depth-to-Image pode fornecer uma infinidade de novos aplicativos criativos, oferecendo alterações que parecem significativamente diferentes do original, mantendo a coerência e a profundidade da imagem.
O que há de novo em Stable Diffusion 2?
- O novo stable diffusion modelo oferece uma resolução de 768 × 768.
- O U-Net tem a mesma quantidade de parâmetros da versão 1.5, mas é treinado do zero e usa o OpenCLIP-ViT/H como seu codificador de texto. Um chamado modelo de predição v é SD 2.0-v.
- O modelo supracitado foi ajustado a partir do SD 2.0-base, que também está disponível e foi treinado como um modelo típico de previsão de ruído em imagens 512×512.
- Um modelo de difusão guiada por texto latente com escala x4 foi adicionado.
- Guiado por profundidade baseado em SD 2.0 refinado stable diffusion modelo. O modelo pode ser utilizado para img2img com preservação de estrutura e síntese condicional de forma e está condicionado a estimativas de profundidade monocular deduzidas pelo MiDaS.
- Um modelo aprimorado de pintura interna guiada por texto construído sobre a base SD 2.0.
Os desenvolvedores trabalharam duro, assim como na iteração inicial de Stable Diffusion, para otimizar o modelo para execução em uma única GPU — eles queriam torná-lo acessível ao maior número de pessoas possível desde o início. Eles já viram o que acontece quando milhões de indivíduos colocam as mãos nesses modelos e colaboram para construir coisas absolutamente notáveis. Este é o poder do código aberto: aproveitar o vasto potencial de milhões de pessoas talentosas que podem não ter os recursos para treinar um modelo de ponta, mas têm a capacidade de fazer coisas incríveis com um.
Esta nova atualização, combinada com novos recursos poderosos como depth2img e melhores recursos de upscaling de resolução, servirá como base para uma infinidade de novos aplicativos e permitirá uma explosão de novo potencial criativo.
Leia mais sobre Stable Diffusion:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.