Rapport de nouvelles Technologie
19 septembre 2023

Google présente une dynamique d'image générative innovante qui simule des scènes dynamiques dans des images statiques

Google a dévoilé un Dynamique d'image générative, une approche inédite permet de transformer un une seule image statique dans une vidéo en boucle transparente ou une scène dynamique interactive, offrant un large éventail d'applications pratiques.

Google présente une dynamique d'image générative innovante qui simule des scènes dynamiques dans des images statiques

Au cœur de cette technologie pionnière se trouve la modélisation d’une dynamique d’espace-image préalable à la scène. L'objectif est de créer une compréhension globale de la façon dont les objets et les éléments d'une image peuvent se comporter lorsqu'ils sont soumis à diverses interactions dynamiques. Cette compréhension peut ensuite être utilisée pour simuler efficacement la réponse de la dynamique des objets aux interactions des utilisateurs.

La principale caractéristique de cette technologie est la capacité de générer des vidéos en boucle transparente. En exploitant la dynamique de l'espace image avant la scène, le système de Google peut extrapoler et étendre le mouvement des éléments au sein d'une image, la transformant en une boucle vidéo captivante et continue. Cette fonctionnalité ouvre de nombreuses possibilités créatives aux créateurs et concepteurs de contenu.

L'article présente une approche de modélisation d'un espace image préalable basée sur la dynamique de la scène, apprise à partir d'un ensemble de trajectoires de mouvement extraites de séquences vidéo réelles contenant des mouvements naturels oscillants tels que des arbres, des fleurs, des bougies et des vêtements soufflés par le vent. . Le modèle entraîné utilise un processus d'échantillonnage par diffusion coordonné en fréquence pour prédire une représentation de mouvement à long terme par pixel dans le domaine de Fourier, qu'ils appellent une texture de mouvement stochastique neuronale. Cette représentation peut être convertie en trajectoires de mouvement denses qui s'étendent sur une vidéo entière.

La technologie permet aux utilisateurs d’interagir de manière réaliste avec des objets dans des images statiques. En simulant la réponse de la dynamique des objets à l'excitation de l'utilisateur, le système de Google permet expériences immersives et interactives au sein des images. Cela a le potentiel de révolutionner espaces métavers et comment les utilisateurs interagissent avec le contenu visuel.

L'étude explore la modélisation d'un a priori génératif pour le mouvement de la scène dans l'espace image, c'est-à-dire le mouvement de tous les pixels dans une seule image. Le modèle est entraîné sur des trajectoires de mouvement extraites automatiquement d’une large collection de séquences vidéo réelles. Conditionné sur une image d'entrée, le modèle entraîné prédit une texture de mouvement neuronal stochastique : un ensemble de coefficients d'une base de mouvement qui caractérisent la trajectoire de chaque pixel dans le futur.

Le fondement de cette innovation réside dans un modèle méticuleusement formé. Le modèle de Google apprend à partir d'un vaste ensemble de données de trajectoires de mouvement extraites de séquences vidéo réelles présentant un mouvement naturel et oscillant. Ces séquences incluent des scènes avec des éléments tels que des arbres qui se balancent, des fleurs qui bougent, des bougies vacillantes et des vêtements flottants au vent. Cet ensemble de données diversifié permet au modèle de comprendre un large éventail de comportements dynamiques.

La portée de l’étude est limitée aux scènes du monde réel présentant une dynamique naturelle et oscillante, comme des arbres et des fleurs se déplaçant dans le vent. La série de Fourier est choisie comme fonctions de base. Les textures d'espace de fréquence résultantes peuvent ensuite être transformées en trajectoires de mouvement de pixels denses et à longue portée, qui peuvent être utilisées pour synthétiser de futures images, transformant ainsi des images fixes en animations réalistes.

Lorsqu'il est présenté avec un Image unique, le modèle entraîné utilise un processus d'échantillonnage par diffusion coordonné en fréquence. Ce processus prédit une représentation de mouvement à long terme par pixel dans le domaine de Fourier, appelée texture de mouvement neuronal stochastique. Cette représentation est ensuite transformée en trajectoires de mouvement denses qui couvrent toute une vidéo. Couplées à un module de rendu basé sur l’image, ces trajectoires peuvent être exploitées pour diverses applications pratiques.

Par rapport aux priors sur les pixels RVB bruts, les priors sur le mouvement capturent une structure sous-dimensionnelle plus fondamentale et de dimension inférieure qui explique efficacement les variations des valeurs des pixels. Cela conduit à une génération à long terme plus cohérente et à un contrôle plus fin des animations par rapport aux méthodes précédentes qui effectuaient animation d'images via une synthèse vidéo brute.

La représentation de mouvement générée est pratique pour un certain nombre d'applications en aval, telles que la création de vidéos en boucle transparente, l'édition du mouvement généré et l'activation d'activités interactives. images dynamiques, simulant la réponse de la dynamique des objets aux forces appliquées par l'utilisateur.

Lire d'autres sujets connexes :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Hot Stories
Rejoignez notre newsletter.
Dernières infos

De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité

Explorons les initiatives exploitant le potentiel des monnaies numériques pour des causes caritatives.

En savoir plus

AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024

L'IA se manifeste de diverses manières dans le domaine des soins de santé, de la découverte de nouvelles corrélations génétiques à l'autonomisation des systèmes chirurgicaux robotisés...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité
Analyse Crypto Wiki La Brochure Éducation Lifestyle Marchés Logiciels Technologie
De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité
13 mai 2024
AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024
AI Wiki Analyse Digérer Opinion La Brochure Marchés Rapport de nouvelles Logiciels Histoires et critiques Technologie
AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024
13 mai 2024
Nim Network va déployer un cadre de tokenisation de la propriété de l'IA et réaliser des ventes de rendement avec une date d'instantané prévue pour mai
Marchés Rapport de nouvelles Technologie
Nim Network va déployer un cadre de tokenisation de la propriété de l'IA et réaliser des ventes de rendement avec une date d'instantané prévue pour mai
13 mai 2024
Binance s'associe à l'Argentine pour lutter contre la cybercriminalité
Opinion La Brochure Marchés Rapport de nouvelles Logiciels Technologie
Binance s'associe à l'Argentine pour lutter contre la cybercriminalité
13 mai 2024
CRYPTOMERIA LABS PTE. LTD.