Relatório de notícias Equipar
17 de novembro de 2022

Nvidia anunciou eDiff-I: nova IA generativa para síntese de texto e imagem com transferência instantânea de estilos

Em Breve

Nvidia lança eDiff-I para ajudar as empresas a criar imagens atraentes e de alta qualidade

A técnica eDiff-I produz regularmente maior qualidade de síntese do que DALL-E2 e Stable diffusion

eDiff-I é uma nova ferramenta de criação de conteúdo AI que fornece recursos sem precedentes de síntese de texto para imagem para profissionais de marketing e empresas, conforme anunciado recentemente pela Nvidia. Com o eDiff-I, as empresas podem criar visuais atraentes e de alta qualidade de forma rápida e fácil, sem a necessidade de equipamentos caros ou ajuda profissional. eDiff-I usa processamento de linguagem natural (NLP) para interpretar a entrada do usuário e gerar imagens correspondentes. A IA então analisa as imagens e escolhe a mais adequada com base no contexto. O resultado é uma imagem de aparência profissional e de alta qualidade que pode ser usada para diversas finalidades, como materiais de marketing, publicações em mídias sociais, campanhas por e-mail e muito mais.

eDiff-I é um IA generativa de próxima geração ferramenta de criação de conteúdo que fornece texto para imagem síntese, transferência rápida de estilo e pintura intuitiva com palavras. Como um modelo de difusão para criar visuais a partir de texto, o eDiff-I sugere o treinamento de um conjunto de redes especializadas em redução de ruído, cada uma especializada em um intervalo de ruído específico, em resposta à descoberta empírica de que o comportamento dos modelos de difusão varia em diferentes fases de amostragem.

Nvidia anunciou eDiff-I: nova IA generativa para síntese de texto e imagem com transferência instantânea de estilos

As incorporações de texto T5, incorporações de imagem CLIP e incorporações de texto CLIP fornecem a base para o conceito eDiff-I. Essa metodologia pode produzir gráficos fotorrealistas em resposta a qualquer consulta de texto.

Ele apresenta dois recursos adicionais além da síntese de texto para imagem: (1) transferência de estilo, que nos permite controlar o estilo da amostra gerada usando uma imagem de estilo de referência e (2) “Paint with Words”, uma ferramenta que permite aos usuários criar imagens pintando mapas de segmentação na tela.

Pipeline
Pipeline

O pipeline consiste em uma cascata de três modelos de difusão: um modelo básico que pode criar amostras com resolução de 64×64 e duas pilhas de super-resolução que podem aumentar gradualmente a resolução das imagens para resoluções de 256×256 e 1024×1024, respectivamente. Os modelos calculam T5 XXL e incorporação de texto após receber uma legenda como entrada. Essas incorporações de imagens podem ser usadas como um vetor de estilo. Em seguida, alimente essas incorporações em nossa cascata modelos de difusão, que gradativamente produzem imagens com resolução de 1024 x 1024.

A abordagem eDiff-I resulta consistentemente em melhor qualidade de síntese quando comparada aos algoritmos de texto para imagem de código aberto (Stable diffusion) e (DALL-E2).

Resultados
Resultados

Quando as incorporações de imagem CLIP são empregadas, a abordagem eDiff-I facilita a transferência de estilo. eDiff-I primeiro extrai o CLIP incorporações de imagem de uma imagem de estilo de referência, que pode ser utilizada como um vetor de referência de estilo. Uma referência estilística pode ser vista no painel esquerdo da figura abaixo. Os resultados quando o condicionamento de estilo é ativado são exibidos no painel central. Os resultados quando o condicionamento de estilo é desativado são exibidos no painel à direita. Quando o condicionamento de estilo é aplicado, o modelo eDiff-I cria saídas que também são fiéis ao estilo da legenda de entrada. Quando o condicionamento de estilo é desativado, são produzidas fotos com aparência natural.

Transferência de estilo
Transferência de estilo

Ao escolher frases e rabiscá-las na imagem, os usuários do método eDiff-I podem alterar o posicionamento das coisas listadas no prompt de texto. Depois disso, o modelo usa o prompt e os mapas para criar imagens compatíveis com a legenda e o mapa de entrada.

Leia artigos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais

Fundadores da Samourai Wallet acusados ​​de facilitar US$ 2 bilhões em negócios Darknet

A apreensão dos fundadores da Samourai Wallet representa um revés notável para a indústria, ressaltando a persistência ...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Pantera Capital investe na blockchain TON e expressa confiança no potencial do Telegram para ampliar a acessibilidade à criptografia
O negócio Relatório de notícias Equipar
Pantera Capital investe na blockchain TON e expressa confiança no potencial do Telegram para ampliar a acessibilidade à criptografia
2 de maio de 2024
Mitosis levanta US$ 7 milhões em financiamento do Amber Group e Foresight Ventures para avançar seu protocolo modular de liquidez
O negócio Relatório de notícias Equipar
Mitosis levanta US$ 7 milhões em financiamento do Amber Group e Foresight Ventures para avançar seu protocolo modular de liquidez
2 de maio de 2024
Galxe faz parceria com Jambo para expandir a acessibilidade global para Web3
O negócio Relatório de notícias Equipar
Galxe faz parceria com Jambo para expandir a acessibilidade global para Web3
2 de maio de 2024
Med-Gemini do Google preparado para dar uma vantagem inicial GPT-4 Com seu desempenho superior em saúde
AI Wiki Novidades Software Equipar
Med-Gemini do Google preparado para dar uma vantagem inicial GPT-4 Com seu desempenho superior em saúde
2 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.