Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s
Em Breve
Pesquisadores desenvolveram um novo modelo de texto para imagem chamado GigaGAN que pode gerar imagens 4K em 3.66 segundos.
É baseado na estrutura GAN (generative adversarial network), que é um tipo de rede neural que pode aprender a gerar dados semelhantes a um conjunto de dados de treinamento. O GigaGAN é capaz de gerar imagens de 512px em 0.13 segundos, 10 vezes mais rápido que o modelo de última geração anterior, e possui um espaço latente desemaranhado, contínuo e controlável.
Também pode ser usado para treinar um upsampler eficiente e de alta qualidade.
Pesquisadores desenvolveram um novo modelo de texto para imagem chamado GigaGAN que pode gerar Imagens 4K em 3.66 segundos. Essa é uma grande melhoria em relação aos modelos existentes de texto para imagem, que podem levar minutos ou até horas para gerar uma única imagem.
O GigaGAN é baseado na estrutura GAN (generative adversarial network), que é um tipo de rede neural que pode aprender a gerar dados semelhantes a um conjunto de dados de treinamento. As GANs têm sido usadas para gerar imagens realistas de rostos, paisagens e até imagens do Street View.
O novo modelo foi treinado em um conjunto de dados de 1 bilhão de imagens, que é muito maior do que os conjuntos de dados usados para treinar modelos anteriores de texto para imagem. Como resultado, o GigaGAN é capaz de gerar imagens de 512px em 0.13 segundos, o que é mais de 10 vezes mais rápido que o modelo anterior de última geração de texto para imagem.
Além disso, o GigaGAN vem com um espaço latente desemaranhado, contínuo e controlável. Isso significa que o GigaGAN pode gerar imagens com uma variedade de estilos diferentes e que as imagens geradas podem ser controladas até certo ponto. Por exemplo, o GigaGAN pode gerar imagens que preservam o layout da entrada de texto, o que é importante para aplicativos, por exemplo, ao gerar imagens de layouts de produtos a partir de descrições de texto.
O GigaGAN também pode ser usado para treinar um upsampler eficiente e de alta qualidade. Isso pode ser aplicado a imagens reais ou a saídas de outros modelos de texto para imagem.
Uma ramificação de codificação de texto, rede de mapeamento de estilo, rede de síntese multiescala e atenção estável e seleção de kernel adaptável fazem parte do gerador GigaGAN. Os desenvolvedores iniciam a ramificação de codificação de texto extraindo incorporações de texto com um modelo CLIP pré-treinado e camadas de atenção aprendidas T. Da mesma forma que Estilo GAN, a incorporação é passada para a rede de mapeamento de estilo M, que gera o vetor de estilo w. Para gerar uma pirâmide de imagens, a rede de síntese agora usa o código de estilo como modulação e os embeddings de texto como atenção. Além disso, os desenvolvedores introduzem a seleção de kernel adaptável à amostra para selecionar os kernels de convolução de forma adaptativa com base no condicionamento do texto de entrada.
O discriminador, assim como o gerador, possui duas ramificações para processamento da imagem e condicionamento do texto. A ramificação de texto, como o gerador, processa o texto. A ramificação da imagem recebe uma pirâmide de imagens e é encarregada de fazer previsões independentes para cada escala de imagem. Além disso, as previsões são feitas em todas as escalas de camada de redução de amostragem subsequentes. Perdas adicionais também são usadas para encorajar a convergência efetiva.
Conforme mostrado na grade de interpolação, o GigaGAN permite uma interpolação suave entre os prompts. Os quatro cantos são criados usando o mesmo z latente, mas diferentes prompts de texto.
Como o GigaGAN preserva um espaço latente desemaranhado, os desenvolvedores podem combinar o estilo grosseiro de uma amostra com o estilo refinado de outra. O GigaGAN também pode controlar o estilo diretamente com prompts de texto.
Leia mais artigos relacionados:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.