Meta revela ‘Emu’ para melhorar a geração de imagens de IA
Em Breve
A Meta AI desenvolveu um método para melhorar modelos de geração de imagens usando agulhas fotogênicas em um palheiro.
O processo envolve o pré-treinamento de um modelo de difusão em um vasto conjunto de dados, usando codificadores de texto para atingir uma resolução de 1024×1024 pixels.
O conjunto de dados passa por uma filtragem extensiva, com a experiência humana eliminando imagens abaixo da média.
Meta AI compartilhou recentemente seu trabalho de pesquisa detalhando uma nova abordagem desenvolvida para aprimorar a geração de adesivos e imagens em seus serviços. O artigo, intitulado “Emu: Aprimorando modelos de geração de imagens usando agulhas fotogênicas em um palheiro,” tem como objetivo demonstrar como um método de treinamento “ajustado pela qualidade” pode elevar significativamente a qualidade da geração de imagens – mesmo em um pequeno conjunto de dados.
Meta's Método de pré-treinamento e detalhes do modelo
O estágio inicial envolve o pré-treinamento de um modelo de difusão usando um vasto conjunto de dados composto por 1.1 bilhão de pares imagem-texto dos recursos internos da Meta AI. A fase depende de um modelo U-Net com robustos 2.8 bilhões de parâmetros. Codificadores de texto, especificamente CLIP ViT-L e T5-XXL, são usados em conjunto com o modelo. O objetivo final do modelo é gerar uma imagem com resolução de 1024×1024 pixels.
O conjunto de dados do modelo passa por uma filtragem rigorosa, eliminando mais de 200,000 amostras de um conjunto de mais de um bilhão de exemplos. Vários filtros, incluindo classificadores que avaliam a estética da imagem, mecanismos para descartar conteúdo indesejável, reconhecimento óptico de caracteres (OCR) para excluir imagens com muito texto e filtragem baseada em resolução e proporção, são aplicados. Métricas de popularidade, como curtidas, também influenciam o processo de filtragem.
Relacionado: Meta revela integração de IA entre serviços, desde modelo generativo de Emu até óculos inteligentes |
Nesta fase, a experiência humana ocupa o centro das atenções. Generalistas, indivíduos que possuem um conhecimento abrangente de anotação de dados, avaliam as 200,000 imagens restantes e montam um subconjunto de 20,000. O objetivo principal aqui é identificar e remover imagens significativamente abaixo da média, caso a heurística empregada na etapa anterior se mostre inadequada.
A habilidade de geração de imagens da Emu
Uma equipa de especialistas em fotografia, altamente conhecedores dos princípios fotográficos, assume a tarefa de filtrar e selecionar imagens. Seu objetivo é identificar e preservar imagens com a mais alta qualidade estética. Eles consideram meticulosamente fatores como composição, iluminação, esquemas de cores, contrastes, relevância temática e planos de fundo.
O toque final inclui a elaboração meticulosa de anotações de texto de alta qualidade para este conjunto de dados com curadoria de 2,000 pares de imagem-texto.
Por último, o modelo treina neste conjunto de dados refinado, completando 15,000 etapas com um tamanho de lote de 64. Esse tamanho de lote é relativamente pequeno em comparação com grandes modelos generativos. Embora o modelo possa parecer sobretreinado com base na perda de validação, as avaliações humanas indicam o contrário. Um fenômeno semelhante foi observado em modelos de linguagem.
Através deste processo orquestrado de vários estágios, a Meta AI alcança alta qualidade geração de imagem. Esta metodologia não visa apenas aumentar os benefícios práticos dos seus serviços, mas também sublinha a importância da curadoria cuidadosa e da experiência humana no refinamento do conteúdo gerado pela IA. Para mais detalhes, você pode explorar o completo artigo.
Leia mais tópicos relacionados:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.