Google apresenta dinâmica de imagem generativa inovadora que simula cenas dinâmicas em imagens estáticas
O Google revelou um Dinâmica generativa de imagens, uma nova abordagem permite a transformação de um única imagem estática em um vídeo em loop contínuo ou uma cena dinâmica interativa, oferecendo uma ampla gama de aplicações práticas.
No centro desta tecnologia pioneira está a modelagem de um espaço-imagem antes da dinâmica da cena. O objetivo é criar uma compreensão abrangente de como os objetos e elementos de uma imagem podem se comportar quando submetidos a diversas interações dinâmicas. Esse entendimento pode então ser usado para simular de forma eficaz a resposta da dinâmica do objeto às interações do usuário.
A principal característica desta tecnologia é a capacidade de gerar vídeos em loop contínuo. Ao aproveitar o espaço da imagem antes da dinâmica da cena, o sistema do Google pode extrapolar e estender o movimento dos elementos dentro de uma imagem, transformando-a em um loop de vídeo contínuo e cativante. Esta funcionalidade abre inúmeras possibilidades criativas para criadores e designers de conteúdo.
A tecnologia permite que os usuários interajam de forma realista com objetos em imagens estáticas. Ao simular a resposta da dinâmica do objeto à excitação do usuário, o sistema do Google permite experiências imersivas e interativas dentro de imagens. Isto tem o potencial de revolucionar espaços metaversos e como os usuários se envolvem com o conteúdo visual.
A base desta inovação reside num modelo meticulosamente treinado. O modelo do Google aprende com um vasto conjunto de dados de trajetórias de movimento extraídas de sequências de vídeo reais apresentando movimento oscilante natural. Essas sequências incluem cenas com elementos como árvores balançando, flores se movendo, velas tremeluzindo e roupas balançando ao vento. Este conjunto de dados diversificado permite que o modelo compreenda uma ampla gama de comportamentos dinâmicos.
Ao ser apresentado com um imagem única, o modelo treinado emprega um processo de amostragem de difusão coordenada por frequência. Este processo prevê uma representação de movimento de longo prazo por pixel no domínio de Fourier, denominada textura de movimento estocástico neural. Essa representação é então transformada em trajetórias de movimento densas que abrangem um vídeo inteiro. Juntamente com um módulo de renderização baseado em imagem, essas trajetórias podem ser aproveitadas para diversas aplicações práticas.
Em comparação com os anteriores sobre pixels RGB brutos, os anteriores sobre o movimento capturam uma estrutura subdimensional mais fundamental e de menor dimensão que explica com eficiência as variações nos valores dos pixels. Isso leva a uma geração mais coerente de longo prazo e a um controle mais refinado sobre as animações em comparação com os métodos anteriores que executam animação de imagem via síntese de vídeo bruto.
A representação de movimento gerada é conveniente para uma série de aplicações posteriores, como a criação de vídeos em loop contínuo, a edição do movimento gerado e a ativação de interações interativas. imagens dinâmicas, simulando a resposta da dinâmica do objeto às forças aplicadas pelo usuário.
Leia mais tópicos relacionados:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.