23 de novembro de 2022

A Sber AI apresentou o Kandinsky 2.0, o primeiro modelo de conversão de texto em imagem para geração em mais de 100 idiomas

Publicado: 23 de novembro de 2022 às 1h23 Atualizado: 23 de novembro de 2022 às 1h23

Em Breve

Kandinsky 2.0, o primeiro modelo de difusão multilíngue, foi criado e treinado por pesquisadores da Sber AI com a ajuda de pesquisadores do AI Institute of Artificial Intelligence usando o conjunto de dados combinado de 1 bilhão de pares de texto-imagem da Sber AI e SberDevices

A difusão está cada vez mais substituindo GANs e modelos autorregressivos em várias tarefas de processamento de imagens digitais. Isso não é surpreendente porque a difusão é mais fácil de aprender, não requer uma seleção complexa de hiperparâmetros, otimização min-max e não sofre instabilidade de aprendizado. E o mais importante, os modelos de difusão demonstram resultados de ponta em quase todas as tarefas generativas - geração de imagem por texto, geração de som, vídeo e até mesmo 3D.

A Sber AI apresentou o Kandinsky 2.0, o primeiro modelo de conversão de texto em imagem para geração em mais de 100 idiomas — A imagem criada por Kandinsky AI

Infelizmente, a maior parte do trabalho no campo de conversão de texto em algo se concentra apenas em inglês e chinês. Para corrigir essa injustiça, Sber AI decidiu criar um modelo multilíngue de difusão de texto para imagem Kandinsky 2.0, que compreende consultas em mais de 100 idiomas. Abraçando o Rosto já oferece Kandinsky 2.0. Pesquisadores da SberAI e SberDevices têm colaborou com especialistas do AI Institute of Artificial Intelligence neste projeto.

O que é difusão?

No artigo de 2015 Aprendizado Profundo Não Supervisionado usando Termodinâmica Sem Equilíbrio, os modelos de difusão foram descritos pela primeira vez como o ato de misturar uma substância resultando em difusão, o que equaliza a distribuição. Como o título do artigo indica, eles abordaram a explicação dos modelos de difusão por meio da estrutura da termodinâmica.

No caso de imagens, tal processo pode se assemelhar, por exemplo, à remoção gradual do ruído gaussiano da imagem.

Os modelos de difusão de papel Bater GANs on Image Synthesis, publicado em 2021, foi o primeiro a mostrar a superioridade dos modelos de difusão sobre o GANS. Os autores também desenvolveram a abordagem de controle de primeira geração (condicionamento), que eles chamaram de orientação do classificador. Este método cria objetos que se encaixam na classe pretendida usando gradientes de um classificador diferente (por exemplo, cachorros). Através do mecanismo Adaptive Group Norm, que envolve a previsão dos coeficientes de normalização, o controle propriamente dito é realizado.

Este artigo pode ser visto como um ponto de virada no campo da IA generativa, levando muitos a se voltarem para o estudo da difusão. Novos artigos sobre texto para vídeo, texto para 3Dimagem pintura, geração de áudio, difusão para super resolução, e até mesmo a geração de movimento começou a aparecer a cada poucas semanas.

Difusão de texto para imagem

Como mencionamos anteriormente, a redução e a eliminação de ruído são normalmente os principais componentes dos processos de difusão no contexto das modalidades de imagem; portanto, a UNet e suas muitas variações são frequentemente usadas como a arquitetura fundamental.

É essencial que esse texto seja levado em consideração de alguma forma durante a geração para criar uma imagem a partir dele. Os autores do OpenAI artigo sobre o modelo GLIDE sugeriu modificar a abordagem de orientação sem classificador para texto.

O emprego de codificadores de texto pré-irradiados congelados e o mecanismo de aprimoramento de resolução em cascata no futuro melhoraram consideravelmente a produção de texto (Imagem). Descobriu-se que não havia necessidade de treinar a parte de texto de modelos de texto para imagem como usar o congelado T5-xxl resultou em qualidade de imagem e compreensão de texto consideravelmente melhoradas e usou muito menos recursos de treinamento.

Os autores de um Difusão latente artigo demonstrou que o componente de imagem realmente não requer treinamento (pelo menos não completamente). O aprendizado prosseguirá ainda mais rapidamente se usarmos um poderoso autoencoder de imagem (VQ-VAE ou KL-VAE) como um decodificador visual e tentarmos gerar incorporações de seu espaço latente por difusão, em vez da imagem em si. Essa metodologia também é a base do recém-lançado Stable Diffusion modelo.

Modelo de IA Kandinsky 2.0

Com algumas melhorias importantes, o Kandinsky 2.0 é baseado em uma técnica aprimorada de difusão latente (não fazemos imagens, mas sim seus vetores latentes):

Empregaram dois codificadores de texto multilíngues e concatenaram suas incorporações.
Adicionado UNet (1.2 bilhão de parâmetros).
Limiarização dinâmica do procedimento de amostragem.

Os pesquisadores empregaram dois codificadores multilíngues simultaneamente - XLMR-clip e mT5-small - para tornar o modelo realmente multilíngue. Portanto, além de inglês, russo, francês e alemão, o modelo também pode entender idiomas como mongol, hebraico e farsi. A IA conhece um total de 101 idiomas. Por que foi decidido codificar o texto usando dois modelos simultaneamente? Como o XLMR-clip viu imagens e fornece incorporações aproximadas para vários idiomas, e o mT5-small é capaz de entender textos complexos, esses modelos têm recursos diferentes, mas cruciais. Como ambos os modelos possuem apenas um pequeno número de parâmetros (560M e 146M), conforme demonstrado por nossos testes preliminares, optou-se por usar dois encoders simultaneamente.

Imagens recém-geradas pelo modelo Kandinsky 2.0 AI abaixo:

Como foi feito o treinamento do modelo Kandinsky 2.0?

Os supercomputadores Christofari foram utilizados para o treinamento na plataforma ML Space. Exigiu 196 placas NVIDIA A100, cada uma com 80 GB de RAM. Demorou 14 dias, ou 65,856 horas de GPU, para concluir o treinamento. A análise levou cinco dias na resolução de 256 × 256, seguidos de seis dias na resolução de 512 × 512 e, em seguida, três dias adicionais nos dados mais puros.

Como dados de treinamento, foram combinados muitos conjuntos de dados que foram pré-filtrados para marcas d'água, baixa resolução e baixa aderência à descrição do texto conforme medido pela métrica CLIP-score.

geração multilíngue

Kandinsky 2.0 é o primeiro modelo multilíngue para criar imagens a partir de palavras, dando-nos a primeira chance de avaliar as mudanças linguísticas e visuais nas culturas linguísticas. Os resultados da tradução da mesma consulta em vários idiomas são mostrados abaixo. Por exemplo, apenas homens brancos aparecem nos resultados da geração para a consulta russa “uma pessoa com educação superior”, enquanto os resultados da tradução francesa “Photo d'une personne diplômée de l'enseignement supérieur” são mais diversificados. Gostaria de salientar que as pessoas tristes com ensino superior estão presentes apenas na edição em russo.

Embora ainda existam muitos testes com enormes modelos de linguagem e diferentes métodos de processo de difusão planejados, já podemos afirmar com confiança que o Kandinsky 2.0 é o primeiro modelo de disseminação totalmente multilíngue! No Site da FusionBrain e google colab, você pode ver exemplos de seus desenhos.

Leia mais sobre IA:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov