24 de janeiro de 2023

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

Publicado: 24 de janeiro de 2023 às 5h00 Atualizado: 21 de março de 2024 às 11h40

Editado e verificado: 24 de janeiro de 2023 às 5h

Em Breve

GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e amplia a capacidade dos atuais modelos de difusão pré-treinados.

Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera text2img de mundo aberto.

O GLIGEN pode gerar uma variedade de objetos em locais e estilos específicos, aproveitando o conhecimento de um modelo text2img pré-treinado.

GLIGEN também pode aterrar pontos-chave humanos ao gerar texto para imagens.

Os modelos de difusão de texto para imagem em larga escala percorreram um longo caminho. No entanto, a prática atual é confiar apenas na entrada de texto, o que pode limitar a capacidade de controle. GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e estende a capacidade dos atuais modelos de difusão de texto para imagem pré-treinados, permitindo que eles sejam condicionados em entradas de aterramento.

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

Para manter o amplo conhecimento de conceito do modelo pré-treinado, os desenvolvedores congelam todos os seus pesos e bombeiam as informações de aterramento em novas camadas treináveis por meio de um processo controlado. Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera conversão de texto em imagem de mundo aberto, e a capacidade de aterramento generaliza efetivamente para novas configurações e conceitos espaciais.

Confira o demonstração Aqui.

O GLIGEN é baseado em modelos de difusão pré-treinados existentes, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.

GLIGEN é baseado em pré-treinados existentes modelos de difusão, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
Em cada bloco de transformador, uma nova camada de auto-atendimento de portão treinável é criada para absorver entrada de aterramento adicional.
Cada token de aterramento tem dois tipos de informações: informações semânticas sobre a coisa aterrada (texto ou imagem codificada) e informações de posição espacial (caixa delimitadora codificada ou pontos-chave).

Artigo relacionado: VToonify: um modelo de IA em tempo real para gerar vídeos de retratos artísticos

Camadas moduladas recém-adicionadas são continuamente pré-treinadas em dados massivos de aterramento (caixa de texto de imagem), o que é mais econômico do que métodos alternativos de usar um modelo de difusão pré-treinado, como ajuste fino de modelo completo. Semelhante ao Lego, diferentes camadas treinadas podem ser conectadas e removidas para permitir vários novos recursos. — Camadas moduladas recém-adicionadas são continuamente pré-treinadas em dados de aterramento massivos (caixa de texto de imagem). Isto é mais econômico do que métodos alternativos de usar um pré-treinado modelo de difusão, como o ajuste fino do modelo completo. Semelhante ao Lego, diferentes camadas treinadas podem ser conectadas e desconectadas para permitir vários novos recursos.

O GLIGEN suporta amostragem programada no processo de difusão para inferência, onde o modelo pode selecionar dinamicamente para usar tokens de aterramento (adicionando a nova camada) ou o modelo de difusão original com bom anterior (expulsando a nova camada) e, assim, equilibrar a qualidade da geração e capacidade de aterramento.

O GLIGEN pode gerar uma variedade de objetos em locais e estilos específicos, aproveitando o conhecimento de um modelo text2img pré-treinado.

Artigo relacionado: A Microsoft lançou um modelo de difusão que pode construir um avatar 3D a partir de uma única foto de uma pessoa

GLIGEN também pode ser treinado usando fotos de referência. A linha superior sugere que fotografias de referência, além de descrições escritas, podem fornecer características mais refinadas, como estilo e formato do carro. A segunda linha demonstra que uma imagem de referência também pode ser utilizada como uma imagem de estilo, caso em que descobrimos que basta ancorar em um canto ou borda de uma imagem.

O GLIGEN, como outros modelos de difusão, pode executar pintura de imagem aterrada, que pode gerar objetos que correspondem de perto às caixas delimitadoras fornecidas.

GLIGEN também pode aterrar pontos-chave humanos ao gerar texto para imagens. — GLIGEN também pode fundamentar pontos-chave humanos enquanto geração de texto para imagens.

Leia mais sobre IA:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov

Hot Stories

Últimas notícias

Junte-se à nossa comunidade tecnológica inovadora

Saiba Mais

Saiba mais

O negócio Relatório de notícias Equipar

Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM

by Alice Davidson

3 de maio de 2024

Mercados Relatório de notícias Equipar

Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base

by Alice Davidson

3 de maio de 2024

Mercados Relatório de notícias Equipar

Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2

by Alice Davidson

3 de maio de 2024

O negócio Relatório de notícias Equipar

CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas

by Alice Davidson

3 de maio de 2024

GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora

Aviso Legal

Sobre o autor

Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM

Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base

Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2

CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas

Injective une forças com AltLayer para trazer segurança de restabelecimento para inEVM

Masa se une ao Teller para introduzir o pool de empréstimos MASA, permitindo empréstimos em USDC na base

Velodrome lança versão beta do Superchain nas próximas semanas e se expande para blockchains OP Stack Layer 2

CARV anuncia parceria com Aethir para descentralizar sua camada de dados e distribuir recompensas

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ