Relatório de notícias Tecnologia
28 de Setembro de 2023

Meta revela ‘Emu’ para melhorar a geração de imagens de IA

Em Breve

A Meta AI desenvolveu um método para melhorar modelos de geração de imagens usando agulhas fotogênicas em um palheiro.

O processo envolve o pré-treinamento de um modelo de difusão em um vasto conjunto de dados, usando codificadores de texto para atingir uma resolução de 1024×1024 pixels.

O conjunto de dados passa por uma filtragem extensiva, com a experiência humana eliminando imagens abaixo da média.

Emu: abordagem inovadora da Meta AI para aprimorar modelos de geração de imagens

Meta AI compartilhou recentemente seu trabalho de pesquisa detalhando uma nova abordagem desenvolvida para aprimorar a geração de adesivos e imagens em seus serviços. O artigo, intitulado “Emu: Aprimorando modelos de geração de imagens usando agulhas fotogênicas em um palheiro,” tem como objetivo demonstrar como um método de treinamento “ajustado pela qualidade” pode elevar significativamente a qualidade da geração de imagens – mesmo em um pequeno conjunto de dados.

Meta's Método de pré-treinamento e detalhes do modelo

O estágio inicial envolve o pré-treinamento de um modelo de difusão usando um vasto conjunto de dados composto por 1.1 bilhão de pares imagem-texto dos recursos internos da Meta AI. A fase depende de um modelo U-Net com robustos 2.8 bilhões de parâmetros. Codificadores de texto, especificamente CLIP ViT-L e T5-XXL, são usados ​​em conjunto com o modelo. O objetivo final do modelo é gerar uma imagem com resolução de 1024×1024 pixels.

O conjunto de dados do modelo passa por uma filtragem rigorosa, eliminando mais de 200,000 amostras de um conjunto de mais de um bilhão de exemplos. Vários filtros, incluindo classificadores que avaliam a estética da imagem, mecanismos para descartar conteúdo indesejável, reconhecimento óptico de caracteres (OCR) para excluir imagens com muito texto e filtragem baseada em resolução e proporção, são aplicados. Métricas de popularidade, como curtidas, também influenciam o processo de filtragem.

Relacionado: Meta revela integração de IA entre serviços, desde modelo generativo de Emu até óculos inteligentes

Nesta fase, a experiência humana ocupa o centro das atenções. Generalistas, indivíduos que possuem um conhecimento abrangente de anotação de dados, avaliam as 200,000 imagens restantes e montam um subconjunto de 20,000. O objetivo principal aqui é identificar e remover imagens significativamente abaixo da média, caso a heurística empregada na etapa anterior se mostre inadequada.

Relacionado: Meta apresenta 28 personagens de IA e AI Studio para criatividade expandida

A habilidade de geração de imagens da Emu

Uma equipa de especialistas em fotografia, altamente conhecedores dos princípios fotográficos, assume a tarefa de filtrar e selecionar imagens. Seu objetivo é identificar e preservar imagens com a mais alta qualidade estética. Eles consideram meticulosamente fatores como composição, iluminação, esquemas de cores, contrastes, relevância temática e planos de fundo.

O toque final inclui a elaboração meticulosa de anotações de texto de alta qualidade para este conjunto de dados com curadoria de 2,000 pares de imagem-texto.

Por último, o modelo treina neste conjunto de dados refinado, completando 15,000 etapas com um tamanho de lote de 64. Esse tamanho de lote é relativamente pequeno em comparação com grandes modelos generativos. Embora o modelo possa parecer sobretreinado com base na perda de validação, as avaliações humanas indicam o contrário. Um fenômeno semelhante foi observado em modelos de linguagem.

Através deste processo orquestrado de vários estágios, a Meta AI alcança alta qualidade geração de imagem. Esta metodologia não visa apenas aumentar os benefícios práticos dos seus serviços, mas também sublinha a importância da curadoria cuidadosa e da experiência humana no refinamento do conteúdo gerado pela IA. Para mais detalhes, você pode explorar o completo artigo.

Um exemplo de geração para os mesmos prompts. À esquerda está o modelo após a etapa 1 (ou seja, apenas pré-treinar, sem mexer nos dados), e à direita está depois de passar por todos os procedimentos.

Leia mais tópicos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Nexo inicia 'The Hunt' para recompensar usuários com US$ 12 milhões em tokens NEXO por se envolverem com seu ecossistema
Mercados Relatório de notícias Tecnologia
Nexo inicia 'The Hunt' para recompensar usuários com US$ 12 milhões em tokens NEXO por se envolverem com seu ecossistema
8 de maio de 2024
Revolut X Exchange da Revolut atrai comerciantes de criptografia com taxas zero de fabricante e análises avançadas
Mercados Software Histórias e resenhas Tecnologia
Revolut X Exchange da Revolut atrai comerciantes de criptografia com taxas zero de fabricante e análises avançadas
8 de maio de 2024
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
O negócio Mercados Relatório de notícias
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
8 de maio de 2024
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
Relatório de notícias Tecnologia
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
8 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.