Relatório de notícias
20 de março de 2023

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s

Em Breve

Pesquisadores desenvolveram um novo modelo de texto para imagem chamado GigaGAN que pode gerar imagens 4K em 3.66 segundos.

É baseado na estrutura GAN (generative adversarial network), que é um tipo de rede neural que pode aprender a gerar dados semelhantes a um conjunto de dados de treinamento. O GigaGAN é capaz de gerar imagens de 512px em 0.13 segundos, 10 vezes mais rápido que o modelo de última geração anterior, e possui um espaço latente desemaranhado, contínuo e controlável.

Também pode ser usado para treinar um upsampler eficiente e de alta qualidade.

Pesquisadores desenvolveram um novo modelo de texto para imagem chamado GigaGAN que pode gerar Imagens 4K em 3.66 segundos. Essa é uma grande melhoria em relação aos modelos existentes de texto para imagem, que podem levar minutos ou até horas para gerar uma única imagem.

Novo modelo de texto para imagem GigaGAN pode gerar imagens 4K em 3.66s

O GigaGAN é baseado na estrutura GAN (generative adversarial network), que é um tipo de rede neural que pode aprender a gerar dados semelhantes a um conjunto de dados de treinamento. As GANs têm sido usadas para gerar imagens realistas de rostos, paisagens e até imagens do Street View.

Leia mais: 5+ modelos de IA de conversão de texto em imagem mais esperados de 2023

O novo modelo foi treinado em um conjunto de dados de 1 bilhão de imagens, que é muito maior do que os conjuntos de dados usados ​​para treinar modelos anteriores de texto para imagem. Como resultado, o GigaGAN é capaz de gerar imagens de 512px em 0.13 segundos, o que é mais de 10 vezes mais rápido que o modelo anterior de última geração de texto para imagem.

Além disso, o GigaGAN vem com um espaço latente desemaranhado, contínuo e controlável. Isso significa que o GigaGAN pode gerar imagens com uma variedade de estilos diferentes e que as imagens geradas podem ser controladas até certo ponto. Por exemplo, o GigaGAN pode gerar imagens que preservam o layout da entrada de texto, o que é importante para aplicativos, por exemplo, ao gerar imagens de layouts de produtos a partir de descrições de texto.

O GigaGAN também pode ser usado para treinar um upsampler eficiente e de alta qualidade. Isso pode ser aplicado a imagens reais ou a saídas de outros modelos de texto para imagem.

Uma ramificação de codificação de texto, rede de mapeamento de estilo, rede de síntese multiescala e atenção estável e seleção de kernel adaptável fazem parte do gerador GigaGAN. Os desenvolvedores iniciam a ramificação de codificação de texto extraindo incorporações de texto com um modelo CLIP pré-treinado e camadas de atenção aprendidas T. Da mesma forma que Estilo GAN, a incorporação é passada para a rede de mapeamento de estilo M, que gera o vetor de estilo w. Para gerar uma pirâmide de imagens, a rede de síntese agora usa o código de estilo como modulação e os embeddings de texto como atenção. Além disso, os desenvolvedores introduzem a seleção de kernel adaptável à amostra para selecionar os kernels de convolução de forma adaptativa com base no condicionamento do texto de entrada.

O discriminador, assim como o gerador, possui duas ramificações para processamento da imagem e condicionamento do texto. A ramificação de texto, como o gerador, processa o texto. A ramificação da imagem recebe uma pirâmide de imagens e é encarregada de fazer previsões independentes para cada escala de imagem. Além disso, as previsões são feitas em todas as escalas de camada de redução de amostragem subsequentes. Perdas adicionais também são usadas para encorajar a convergência efetiva.

Conforme mostrado na grade de interpolação, o GigaGAN permite uma interpolação suave entre os prompts. Os quatro cantos são criados usando o mesmo z latente, mas diferentes prompts de texto.

Como o GigaGAN preserva um espaço latente desemaranhado, os desenvolvedores podem combinar o estilo grosseiro de uma amostra com o estilo refinado de outra. O GigaGAN também pode controlar o estilo diretamente com prompts de texto.

Leia mais artigos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais

Fundadores da Samourai Wallet acusados ​​de facilitar US$ 2 bilhões em negócios Darknet

A apreensão dos fundadores da Samourai Wallet representa um revés notável para a indústria, ressaltando a persistência ...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
AltLayer entra na segunda fase de sua iniciativa de piquetagem e apresenta o token reALT
Mercados Relatório de notícias Equipar
AltLayer entra na segunda fase de sua iniciativa de piquetagem e apresenta o token reALT
2 de maio de 2024
Rede BNB divulga relatório do primeiro trimestre de 1, destaca redução de 2024% em sua perda de valor, enquanto BSC TVL sobe 55.8%
Mercados Relatório de notícias Equipar
Rede BNB divulga relatório do primeiro trimestre de 1, destaca redução de 2024% em sua perda de valor, enquanto BSC TVL sobe 55.8%
2 de maio de 2024
Aave Labs revela proposta 'Aave 2030' incluindo lançamento do protocolo Aave V4
O negócio Relatório de notícias Equipar
Aave Labs revela proposta 'Aave 2030' incluindo lançamento do protocolo Aave V4
2 de maio de 2024
Ankr colabora com a AI Blockchain Platform Talus Network para desbloquear a liquidez do Bitcoin para IA
O negócio Relatório de notícias Equipar
Ankr colabora com a AI Blockchain Platform Talus Network para desbloquear a liquidez do Bitcoin para IA
1 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.