Relatório de notícias
20 de março de 2023

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s

Em Breve

Pesquisadores desenvolveram um novo modelo de texto para imagem chamado GigaGAN que pode gerar imagens 4K em 3.66 segundos.

É baseado na estrutura GAN (generative adversarial network), que é um tipo de rede neural que pode aprender a gerar dados semelhantes a um conjunto de dados de treinamento. O GigaGAN é capaz de gerar imagens de 512px em 0.13 segundos, 10 vezes mais rápido que o modelo de última geração anterior, e possui um espaço latente desemaranhado, contínuo e controlável.

Também pode ser usado para treinar um upsampler eficiente e de alta qualidade.

Pesquisadores desenvolveram um novo modelo de texto para imagem chamado GigaGAN que pode gerar Imagens 4K em 3.66 segundos. Essa é uma grande melhoria em relação aos modelos existentes de texto para imagem, que podem levar minutos ou até horas para gerar uma única imagem.

Novo modelo de texto para imagem GigaGAN pode gerar imagens 4K em 3.66s

O GigaGAN é baseado na estrutura GAN (generative adversarial network), que é um tipo de rede neural que pode aprender a gerar dados semelhantes a um conjunto de dados de treinamento. As GANs têm sido usadas para gerar imagens realistas de rostos, paisagens e até imagens do Street View.

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s
Leia mais: 5+ modelos de IA de conversão de texto em imagem mais esperados de 2023

O novo modelo foi treinado em um conjunto de dados de 1 bilhão de imagens, que é muito maior do que os conjuntos de dados usados ​​para treinar modelos anteriores de texto para imagem. Como resultado, o GigaGAN é capaz de gerar imagens de 512px em 0.13 segundos, o que é mais de 10 vezes mais rápido que o modelo anterior de última geração de texto para imagem.

Além disso, o GigaGAN vem com um espaço latente desemaranhado, contínuo e controlável. Isso significa que o GigaGAN pode gerar imagens com uma variedade de estilos diferentes e que as imagens geradas podem ser controladas até certo ponto. Por exemplo, o GigaGAN pode gerar imagens que preservam o layout da entrada de texto, o que é importante para aplicativos, por exemplo, ao gerar imagens de layouts de produtos a partir de descrições de texto.

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s

O GigaGAN também pode ser usado para treinar um upsampler eficiente e de alta qualidade. Isso pode ser aplicado a imagens reais ou a saídas de outros modelos de texto para imagem.

Uma ramificação de codificação de texto, rede de mapeamento de estilo, rede de síntese multiescala e atenção estável e seleção de kernel adaptável fazem parte do gerador GigaGAN. Os desenvolvedores iniciam a ramificação de codificação de texto extraindo incorporações de texto com um modelo CLIP pré-treinado e camadas de atenção aprendidas T. Da mesma forma que Estilo GAN, a incorporação é passada para a rede de mapeamento de estilo M, que gera o vetor de estilo w. Para gerar uma pirâmide de imagens, a rede de síntese agora usa o código de estilo como modulação e os embeddings de texto como atenção. Além disso, os desenvolvedores introduzem a seleção de kernel adaptável à amostra para selecionar os kernels de convolução de forma adaptativa com base no condicionamento do texto de entrada.

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s

O discriminador, assim como o gerador, possui duas ramificações para processamento da imagem e condicionamento do texto. A ramificação de texto, como o gerador, processa o texto. A ramificação da imagem recebe uma pirâmide de imagens e é encarregada de fazer previsões independentes para cada escala de imagem. Além disso, as previsões são feitas em todas as escalas de camada de redução de amostragem subsequentes. Perdas adicionais também são usadas para encorajar a convergência efetiva.

Conforme mostrado na grade de interpolação, o GigaGAN permite uma interpolação suave entre os prompts. Os quatro cantos são criados usando o mesmo z latente, mas diferentes prompts de texto.

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s

Como o GigaGAN preserva um espaço latente desemaranhado, os desenvolvedores podem combinar o estilo grosseiro de uma amostra com o estilo refinado de outra. O GigaGAN também pode controlar o estilo diretamente com prompts de texto.

Novo modelo GigaGAN de conversão de texto em imagem pode gerar imagens 4K em 3.66s

Leia mais artigos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

A Calmaria Antes da Tempestade de Solana: O Que os Gráficos, Baleias e Sinais On-Chain Estão Dizendo Agora

Solana demonstrou um forte desempenho, impulsionado pela crescente adoção, interesse institucional e parcerias importantes, ao mesmo tempo em que enfrenta potenciais...

Saber Mais

Criptomoedas em abril de 2025: Principais tendências, mudanças e o que vem a seguir

Em abril de 2025, o espaço criptográfico se concentrou no fortalecimento da infraestrutura principal, com o Ethereum se preparando para o Pectra...

Saber Mais
Saiba Mais
Ler mais
A carteira Bitget nomeia Will Wu, veterano da BCG, como chefe da região Ásia-Pacífico.
O negócio Relatório de notícias
A carteira Bitget nomeia Will Wu, veterano da BCG, como chefe da região Ásia-Pacífico.
12 de fevereiro de 2026
Dois terços dos adultos consideram a alfabetização financeira uma característica atraente, revela pesquisa da OKX.
Relatório de notícias Inovadora
Dois terços dos adultos consideram a alfabetização financeira uma característica atraente, revela pesquisa da OKX.
12 de fevereiro de 2026
A Solus Partners divulga relatório histórico sobre o avanço institucional da Canton Network: O que esperar em 2026?
Relatório de notícias Inovadora
A Solus Partners divulga relatório histórico sobre o avanço institucional da Canton Network: O que esperar em 2026?
12 de fevereiro de 2026
Transak integra-se com MegaETH para fornecer acesso instantâneo de moeda fiduciária a ETH na camada 2 de alta velocidade.
Relatório de notícias Inovadora
Transak integra-se com MegaETH para fornecer acesso instantâneo de moeda fiduciária a ETH na camada 2 de alta velocidade.
12 de fevereiro de 2026
CRYPTOMERIA LABS PTE. LTDA.