Rapport de nouvelles
06 octobre 2022

Google surmonte Meta en lançant un nouveau générateur d'IA texte-vidéo, Imagen Video 

En bref

Imagen Video de Google tente d'aider les générateurs de vidéos à se transformer en applications tueuses

Il n'a pas fallu longtemps à Google pour répondre à Make-a-Video de Meta. En utilisant une invite de texte, Imagen Vidéo peut produire une vidéo fantastique. Les résultats sont une avancée considérable par rapport à l'état de l'art malgré un certain nombre d'inconvénients.

En comparaison avec le générateur d'IA Text-to-Video de Facebook Faire une vidéo, les résultats sont nettement meilleurs. Cependant, cette stratégie exigeait également plus de surveillance. Contrairement à Imagen Video, où les micro-travailleurs travaillaient dur pour annoter les films avec des descriptions écrites, Make-a-Scene utilisait des vidéos non étiquetées pour la formation.

Entrer dans les spécificités de l'architecture est inutile ; vous devriez lire à ce sujet dans l'article ici. Nous ne pouvons que confirmer que 16 images sont d'abord générées à partir de l'incorporation de texte de l'encodeur T5 à une résolution de 48 × 24 avec 3 images par seconde, et que cela est ensuite mis à l'échelle par un certain nombre de modèles de diffusion dans le film final de 128 images à 1280×768 et 24 images par seconde.

Qu'est-ce qu'Imagen Video ?

Imagen Video est une méthode de création de vidéos conditionnelles au texte basée sur une série de modèles de diffusion vidéo. Imagen Video produit des films de haute qualité à partir de invites textuelles en combinant un modèle de production vidéo de base avec une série de modèles vidéo spatiaux et temporels entrelacés de super-résolution. Passez en revue les choix de conception faits par l'équipe lors de la mise à l'échelle du système en tant que système de haute technologie.definition du modèle texte-vidéo, y compris la décision de paramétriser les modèles de diffusion en V et la sélection de modèles de super-résolution temporelle et spatiale entièrement convolutionnels à des résolutions spécifiques. En outre, il valide et applique les résultats de travaux antérieurs sur la production d'images basée sur la diffusion dans le contexte de génération vidéo. Les modèles vidéo sont ensuite soumis à une distillation progressive avec guidage sans classificateur pour un échantillonnage rapide et de haute qualité.

L'équipe de recherche de Google affirme que le système accepte une description textuelle et génère un film de 16 images à trois images par seconde avec une résolution de 24 par 48 pixels. Le système met à l'échelle et «prédit» les images supplémentaires, créant une vidéo finale avec 128 images à 24 images par seconde et une résolution de 720p (1280 × 768). Il existe 60 millions de paires image-texte et 14 millions de paires vidéo-texte ont été utilisées pour former Imagen Video.

Images d'échantillons vidéo

Même si simplement parce que l'utilisation de l'IA pour faire de la vidéo est plus rapide et moins coûteuse, de telles technologies seront sans aucun doute utilisées partout.

Intéressé à lire plus? Voici quelques sujets supplémentaires à consulter :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

La frénésie DOGE : analyse de la récente hausse de valeur de Dogecoin (DOGE)

L’industrie des crypto-monnaies se développe rapidement et les pièces meme se préparent à une reprise significative. Dogecoin (DOGE), ...

En savoir plus

L'évolution du contenu généré par l'IA dans le métaverse

L'émergence du contenu génératif de l'IA est l'un des développements les plus fascinants de l'environnement virtuel...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Tiger Brokers va lancer le trading sans commission pour Bosera HashKey, China Asset Management et les ETF Crypto Harvest Spot
La Brochure Marchés Rapport de nouvelles
Tiger Brokers va lancer le trading sans commission pour Bosera HashKey, China Asset Management et les ETF Crypto Harvest Spot
29 avril 2024
Scroll achève la mise à niveau du réseau principal de Bernoulli et prévoit une diminution de 10 fois des coûts de transaction
Rapport de nouvelles Technologie
Scroll achève la mise à niveau du réseau principal de Bernoulli et prévoit une diminution de 10 fois des coûts de transaction
29 avril 2024
OKX Jumpstart répertorie Runecoin et permet au BTC Staking de gagner des jetons RUNE
Marchés Rapport de nouvelles Technologie
OKX Jumpstart répertorie Runecoin et permet au BTC Staking de gagner des jetons RUNE
29 avril 2024
Les meilleures offres de la semaine, les investissements majeurs dans l'IA, l'informatique, Web3, et Crypto (22-26.04)
Digérer La Brochure Marchés Technologie
Les meilleures offres de la semaine, les investissements majeurs dans l'IA, l'informatique, Web3, et Crypto (22-26.04)
26 avril 2024
CRYPTOMERIA LABS PTE. LTD.