19 de Setembro de 2023

Google apresenta dinâmica de imagem generativa inovadora que simula cenas dinâmicas em imagens estáticas

Publicado: 19 de setembro de 2023 às 4h21 Atualizado: 19 de setembro de 2023 às 9h02

Editado e verificado: 19 de setembro de 2023 às 4h21

O Google revelou um Dinâmica generativa de imagens, uma nova abordagem permite a transformação de um única imagem estática em um vídeo em loop contínuo ou uma cena dinâmica interativa, oferecendo uma ampla gama de aplicações práticas.

Google apresenta dinâmica de imagem generativa inovadora que simula cenas dinâmicas em imagens estáticas

No centro desta tecnologia pioneira está a modelagem de um espaço-imagem antes da dinâmica da cena. O objetivo é criar uma compreensão abrangente de como os objetos e elementos de uma imagem podem se comportar quando submetidos a diversas interações dinâmicas. Esse entendimento pode então ser usado para simular de forma eficaz a resposta da dinâmica do objeto às interações do usuário.

A principal característica desta tecnologia é a capacidade de gerar vídeos em loop contínuo. Ao aproveitar o espaço da imagem antes da dinâmica da cena, o sistema do Google pode extrapolar e estender o movimento dos elementos dentro de uma imagem, transformando-a em um loop de vídeo contínuo e cativante. Esta funcionalidade abre inúmeras possibilidades criativas para criadores e designers de conteúdo.

O artigo apresenta uma abordagem para modelar um espaço-imagem anterior com base na dinâmica da cena, que é aprendida a partir de uma coleção de trajetórias de movimento extraídas de sequências de vídeo reais contendo movimentos oscilantes naturais, como árvores, flores, velas e roupas ao vento. . O modelo treinado usa um processo de amostragem de difusão coordenada por frequência para prever uma representação de movimento de longo prazo por pixel no domínio de Fourier, que eles chamam de textura de movimento estocástico neural. Essa representação pode ser convertida em trajetórias de movimento densas que abrangem um vídeo inteiro.

A tecnologia permite que os usuários interajam de forma realista com objetos em imagens estáticas. Ao simular a resposta da dinâmica do objeto à excitação do usuário, o sistema do Google permite experiências imersivas e interativas dentro de imagens. Isto tem o potencial de revolucionar espaços metaversos e como os usuários se envolvem com o conteúdo visual.

O estudo explora a modelagem de um prior generativo para o movimento da cena imagem-espaço, ou seja, o movimento de todos os pixels em uma única imagem. O modelo é treinado em trajetórias de movimento extraídas automaticamente de uma grande coleção de sequências de vídeo reais. Condicionado a uma imagem de entrada, o modelo treinado prevê uma textura de movimento neural estocástico: um conjunto de coeficientes de uma base de movimento que caracteriza a trajetória de cada pixel no futuro.

A base desta inovação reside num modelo meticulosamente treinado. O modelo do Google aprende com um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais apresentando movimento oscilante natural. Essas sequências incluem cenas com elementos como árvores balançando, flores se movendo, velas tremeluzindo e roupas balançando ao vento. Este conjunto de dados diversificado permite que o modelo compreenda uma ampla gama de comportamentos dinâmicos.

O escopo do estudo limita-se a cenas do mundo real com dinâmica natural e oscilante, como árvores e flores se movendo ao vento. A série de Fourier é escolhida como função base. As texturas de espaço de frequência resultantes podem então ser transformadas em trajetórias de movimento de pixel densas e de longo alcance, que podem ser usadas para sintetizar quadros futuros, transformando imagens estáticas em animações realistas.

Ao ser apresentado com um imagem única, o modelo treinado emprega um processo de amostragem de difusão coordenada por frequência. Este processo prevê uma representação de movimento de longo prazo por pixel no domínio de Fourier, denominada textura de movimento estocástico neural. Essa representação é então transformada em trajetórias de movimento densas que abrangem um vídeo inteiro. Juntamente com um módulo de renderização baseado em imagem, essas trajetórias podem ser aproveitadas para diversas aplicações práticas.

Em comparação com os anteriores sobre pixels RGB brutos, os anteriores sobre o movimento capturam uma estrutura subdimensional mais fundamental e de menor dimensão que explica com eficiência as variações nos valores dos pixels. Isso leva a uma geração mais coerente de longo prazo e a um controle mais refinado sobre as animações em comparação com os métodos anteriores que executam animação de imagem via síntese de vídeo bruto.

A representação de movimento gerada é conveniente para uma série de aplicações posteriores, como a criação de vídeos em loop contínuo, a edição do movimento gerado e a ativação de interações interativas. imagens dinâmicas, simulando a resposta da dinâmica do objeto às forças aplicadas pelo usuário.

Leia mais tópicos relacionados:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov