GLIGEN: novo modelo de geração de texto para imagem congelado com caixa delimitadora
Em Breve
GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e amplia a capacidade dos atuais modelos de difusão pré-treinados.
Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera text2img de mundo aberto.
O GLIGEN pode gerar uma variedade de objetos em locais e estilos específicos, aproveitando o conhecimento de um modelo text2img pré-treinado.
GLIGEN também pode aterrar pontos-chave humanos ao gerar texto para imagens.
Os modelos de difusão de texto para imagem em larga escala percorreram um longo caminho. No entanto, a prática atual é confiar apenas na entrada de texto, o que pode limitar a capacidade de controle. GLIGEN, ou Grounded-Language-to-Image Generation, é uma nova técnica que se baseia e estende a capacidade dos atuais modelos de difusão de texto para imagem pré-treinados, permitindo que eles sejam condicionados em entradas de aterramento.
Para manter o amplo conhecimento de conceito do modelo pré-treinado, os desenvolvedores congelam todos os seus pesos e bombeiam as informações de aterramento em novas camadas treináveis por meio de um processo controlado. Com entradas de condição de legenda e caixa delimitadora, o modelo GLIGEN gera conversão de texto em imagem de mundo aberto, e a capacidade de aterramento generaliza efetivamente para novas configurações e conceitos espaciais.
Confira o demonstração Aqui.
- GLIGEN é baseado em pré-treinados existentes modelos de difusão, cujos pesos originais foram congelados para reter grandes quantidades de conhecimento pré-treinado.
- Em cada bloco de transformador, uma nova camada de auto-atendimento de portão treinável é criada para absorver entrada de aterramento adicional.
- Cada token de aterramento tem dois tipos de informações: informações semânticas sobre a coisa aterrada (texto ou imagem codificada) e informações de posição espacial (caixa delimitadora codificada ou pontos-chave).
Artigo relacionado: VToonify: um modelo de IA em tempo real para gerar vídeos de retratos artísticos |
Artigo relacionado: A Microsoft lançou um modelo de difusão que pode construir um avatar 3D a partir de uma única foto de uma pessoa |
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.