Relatório de notícias Tecnologia
19 de Setembro de 2023

Google apresenta dinâmica de imagem generativa inovadora que simula cenas dinâmicas em imagens estáticas

O Google revelou um Dinâmica generativa de imagens, uma nova abordagem permite a transformação de um única imagem estática em um vídeo em loop contínuo ou uma cena dinâmica interativa, oferecendo uma ampla gama de aplicações práticas.

Google apresenta dinâmica de imagem generativa inovadora que simula cenas dinâmicas em imagens estáticas

No centro desta tecnologia pioneira está a modelagem de um espaço-imagem antes da dinâmica da cena. O objetivo é criar uma compreensão abrangente de como os objetos e elementos de uma imagem podem se comportar quando submetidos a diversas interações dinâmicas. Esse entendimento pode então ser usado para simular de forma eficaz a resposta da dinâmica do objeto às interações do usuário.

A principal característica desta tecnologia é a capacidade de gerar vídeos em loop contínuo. Ao aproveitar o espaço da imagem antes da dinâmica da cena, o sistema do Google pode extrapolar e estender o movimento dos elementos dentro de uma imagem, transformando-a em um loop de vídeo contínuo e cativante. Esta funcionalidade abre inúmeras possibilidades criativas para criadores e designers de conteúdo.

O artigo apresenta uma abordagem para modelar um espaço-imagem anterior com base na dinâmica da cena, que é aprendida a partir de uma coleção de trajetórias de movimento extraídas de sequências de vídeo reais contendo movimentos oscilantes naturais, como árvores, flores, velas e roupas ao vento. . O modelo treinado usa um processo de amostragem de difusão coordenada por frequência para prever uma representação de movimento de longo prazo por pixel no domínio de Fourier, que eles chamam de textura de movimento estocástico neural. Essa representação pode ser convertida em trajetórias de movimento densas que abrangem um vídeo inteiro.

A tecnologia permite que os usuários interajam de forma realista com objetos em imagens estáticas. Ao simular a resposta da dinâmica do objeto à excitação do usuário, o sistema do Google permite experiências imersivas e interativas dentro de imagens. Isto tem o potencial de revolucionar espaços metaversos e como os usuários se envolvem com o conteúdo visual.

O estudo explora a modelagem de um prior generativo para o movimento da cena imagem-espaço, ou seja, o movimento de todos os pixels em uma única imagem. O modelo é treinado em trajetórias de movimento extraídas automaticamente de uma grande coleção de sequências de vídeo reais. Condicionado a uma imagem de entrada, o modelo treinado prevê uma textura de movimento neural estocástico: um conjunto de coeficientes de uma base de movimento que caracteriza a trajetória de cada pixel no futuro.

A base desta inovação reside num modelo meticulosamente treinado. O modelo do Google aprende com um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais apresentando movimento oscilante natural. Essas sequências incluem cenas com elementos como árvores balançando, flores se movendo, velas tremeluzindo e roupas balançando ao vento. Este conjunto de dados diversificado permite que o modelo compreenda uma ampla gama de comportamentos dinâmicos.

O escopo do estudo limita-se a cenas do mundo real com dinâmica natural e oscilante, como árvores e flores se movendo ao vento. A série de Fourier é escolhida como função base. As texturas de espaço de frequência resultantes podem então ser transformadas em trajetórias de movimento de pixel densas e de longo alcance, que podem ser usadas para sintetizar quadros futuros, transformando imagens estáticas em animações realistas.

Ao ser apresentado com um imagem única, o modelo treinado emprega um processo de amostragem de difusão coordenada por frequência. Este processo prevê uma representação de movimento de longo prazo por pixel no domínio de Fourier, denominada textura de movimento estocástico neural. Essa representação é então transformada em trajetórias de movimento densas que abrangem um vídeo inteiro. Juntamente com um módulo de renderização baseado em imagem, essas trajetórias podem ser aproveitadas para diversas aplicações práticas.

Em comparação com os anteriores sobre pixels RGB brutos, os anteriores sobre o movimento capturam uma estrutura subdimensional mais fundamental e de menor dimensão que explica com eficiência as variações nos valores dos pixels. Isso leva a uma geração mais coerente de longo prazo e a um controle mais refinado sobre as animações em comparação com os métodos anteriores que executam animação de imagem via síntese de vídeo bruto.

A representação de movimento gerada é conveniente para uma série de aplicações posteriores, como a criação de vídeos em loop contínuo, a edição do movimento gerado e a ativação de interações interativas. imagens dinâmicas, simulando a resposta da dinâmica do objeto às forças aplicadas pelo usuário.

Leia mais tópicos relacionados:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
O negócio Mercados Histórias e resenhas Tecnologia
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
10 de maio de 2024
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
Mercados Relatório de notícias Tecnologia
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
10 de maio de 2024
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
Mercados Segurança Wiki Software Histórias e resenhas Tecnologia
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
10 de maio de 2024
Ethereum Layer 2 Network Mint, movida a otimismo, lançará sua rede principal em 15 de maio
Relatório de notícias Tecnologia
Ethereum Layer 2 Network Mint, movida a otimismo, lançará sua rede principal em 15 de maio
10 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.