Pesquisadores do MIT e do Google apresentam StableRep, um modelo de IA para reforçar a produção de imagens
Em Breve
Cientistas da computação do MIT e do Google revelaram o StableRep, um modelo de IA que transforma prompts de texto em imagens precisas usando Stable Diffusion.
MIT e Google cientistas da computação revelaram o StableRep, um modelo de IA projetado para transformar legendas escritas descritivas em imagens correspondentes precisas usando imagens geradas por Stable Diffusion. Esta ferramenta visa aprimorar a capacidade das redes neurais de gerar imagens baseadas em descrições textuais.
Segundo os pesquisadores, as imagens sintéticas podem ajudar os modelos de IA a aprender representações visuais com mais precisão em comparação com fotografias reais.
StableRep visa capacitar pesquisadores para gerenciar o processo algorítmico de aprendizado de máquina, treinando um modelo em uma infinidade de imagens geradas por Stable Diffusion em resposta ao mesmo prompt. Assim, o modelo aprenderá uma gama mais ampla de representações visuais, defisaber quais imagens se alinham com as instruções fornecidas.
Os investigadores prevêem o surgimento de um ecossistema de modelos de IA, alguns dos quais serão treinados em dados reais ou sintéticos. Atualmente, os esforços estão focados em ensinar o modelo a aprender mais sobre conceitos de alto nível através da compreensão contextual e da variabilidade, em vez de simplesmente alimentá-lo com dados.
StableRep ajudará desenvolvedores e motores de IA
No centro de modelos de texto para imagem reside na sua capacidade de vincular objetos a palavras. Quando apresentados com um prompt de texto de entrada, esses modelos devem gerar uma imagem que corresponda à descrição fornecida. Para conseguir isso, eles devem adquirir uma compreensão das representações visuais de objetos do mundo real.
De acordo com uma recente pré-imprimir papel no arXiv, StableRep supera SimCLR e CLIP em termos de representações aprendidas usando o mesmo conjunto de prompts de texto e imagens reais correspondentes em conjuntos de dados de grande escala, contando apenas com imagens sintéticas.
O artigo continua: “Quando introduzimos ainda mais a supervisão de linguagem, o StableRep treinado com 20 milhões de imagens sintéticas alcança melhor precisão do que o CLIP treinado com 50 milhões de imagens reais”.
SimCLR e CLIP são algoritmos de aprendizado de máquina empregados para gerar imagens a partir de prompts de texto.
Esta abordagem inovadora permite que os desenvolvedores de IA treinem redes neurais com menos imagens sintéticas do que reais, ao mesmo tempo que alcançam melhores resultados. O surgimento de métodos do tipo StableRep sugere um futuro onde os modelos de texto para imagem poderiam ser treinados predominantemente em dados sintéticos, reduzindo a dependência de imagens reais e apoiando motores de IA quando confrontados com limitações nos recursos online disponíveis.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, provas de conhecimento zero, investimentos e no vasto reino de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.
Mais artigosAlisa, jornalista dedicada do MPost, é especializada em criptomoedas, provas de conhecimento zero, investimentos e no vasto reino de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.