AI Wiki Art Éducation Logiciels Technologie
24 avril 2024

L'essor de Sora : comment l'IA est-elledefirepenser le paysage de la création de contenu vidéo

En bref

Sora est un modèle d'IA texte-vidéo progressif qui promet de changer complètement le jeu de la création vidéo.

Adobe a récemment révélé son intention d'intégrer des outils d'IA générative dans son Premiere Pro logiciel. Cette décision, qui consiste notamment à accorder aux utilisateurs l'accès à des outils tels que OpenAISora de , directement dans Premiere Pro, vise à enrichir le logiciel avec des capacités basées sur l'IA telles que la manipulation de scènes et la suppression des distractions.

Bien que OpenAISora de n'est pas actuellement accessible au public, Adobe a démontré son intégration dans Premiere Pro en tant que fonctionnalité expérimentale sans fournir de calendrier précis pour sa sortie.

Sora est un modèle d'IA texte-vidéo progressif qui a retenu l'attention en raison de sa promesse de changer complètement le jeu de la création vidéo. Outil prometteur aux effets extrêmes pour tous ceux qui ont quelque chose à voir avec la production vidéo, le motion design et l’animation, cette technologie comporte également des défis cruciaux.

Explorons toutes les facettes de l'incroyable et très attendu Sora.

Texte en vidéo ?

Essentiellement, Sora est conçu pour créer des vidéos réalistes et visuellement captivantes générées à partir d'invites textuelles. En tant qu'application innovante de l'IA, Sora vise à rationaliser le processus de production vidéo et à offrir de nouvelles possibilités pour les processus narratifs et la communication visuelle.

La fonctionnalité de Sora repose sur sa capacité à interpréter et exécuter des commandes textuelles pour créer un contenu vidéo convaincant. En tirant parti de techniques avancées d'apprentissage en profondeur et de compréhension du langage, Sora traite le texte saisi et construit les scènes visuelles correspondantes avec les personnages, les décors et les mouvements. Ce processus implique une interaction sophistiquée entre le traitement du langage naturel et la synthèse vidéo, produisant un résultat étroitement aligné sur les invites textuelles fournies.

En développant Sora, OpenAIL'équipe de a souligné l'importance de créer un modèle d'IA qui encapsule une compréhension approfondie du langage et une solide compréhension des principes de narration visuelle. En intégrant les avancées de pointe en matière de compréhension du langage naturel et de synthèse vidéo, la conception de Sora donne la priorité à la fusion cohérente de l'expression linguistique et de la représentation visuelle.

Comment est ce possible?

Ainsi, Sora fonctionne comme un modèle de diffusion similaire à d’autres IA génératives qui fonctionnent avec la conversion texte-image. Cela signifie que Sora démarre chaque image avec du bruit statique, puis transforme les images en représentations qui ressembleront à l'invite donnée et à la description de ce qui est attendu. Ceci est possible grâce à l’apprentissage automatique. Les vidéos Sora peuvent durer jusqu'à 60 secondes.

En ce qui concerne la cohérence temporelle, Sora innove en considérant simultanément plusieurs images vidéo, garantissant ainsi la cohérence lorsque les objets se déplacent dans la scène.

Intégrant à la fois des modèles de diffusion et de transformateur, Sora suit une approche hybride proche de GPTl'architecture du transformateur. Jack Qiao met en évidence les atouts complémentaires de ces modèles, la diffusion excellant dans la génération de textures mais manquant de composition globale, tandis que les transformateurs excellent dans la détermination de la disposition de haut niveau. La combinaison exploite la capacité du transformateur à organiser les correctifs tandis que le modèle de diffusion remplit les détails.

Dans l'implémentation de Sora, les images sont subdivisées en patchs tridimensionnels pour s'adapter à la persistance temporelle. Cela reflète le processus de tokenisation dans les modèles de langage, où les correctifs représentent des éléments d'un ensemble d'images. De plus, une étape de réduction de dimensionnalité est appliquée pour rationaliser l’efficacité des calculs.

Pour améliorer la fidélité vidéo, Sora utilise une technique de récapitulation similaire à DALLE E 3, Dans lequel GPT réécrit les invites utilisateur avec des détails supplémentaires avant la génération vidéo. Cela constitue une forme d'affinement automatique des invites, garantissant une adhésion fidèle aux entrées de l'utilisateur.

Quelle est la qualité de Sora maintenant ?

OpenAI reconnaît plusieurs limitations dans l'itération actuelle de Sora. Notamment, Sora n'a pas une compréhension inhérente de la physique, ce qui signifie qu'il peut ne pas adhérer systématiquement aux principes physiques du monde réel.

À titre d’exemple, le modèle ne parvient pas à saisir les relations de cause à effet, ce qui entraîne des incohérences potentielles. De même, le positionnement spatial des objets peut présenter des décalages non naturels.

En matière de fiabilité, le statut de Sora reste incertain. Bien que OpenAI a présenté des exemples démontrant une grande qualité, on ne sait pas exactement dans quelle mesure une présentation sélective a eu lieu. Dans les applications de synthèse texte-image, générer plusieurs images et choisir la meilleure est une pratique courante. Le nombre exact d'images produites par le OpenAI L'équipe qui présentera les vidéos dans son article d'annonce n'est pas divulguée. Ce manque de transparence pourrait potentiellement entraver l’adoption, surtout si la génération de centaines ou de milliers de vidéos est nécessaire pour obtenir un seul résultat utilisable. Pour lever cette incertitude, il faudra attendre une plus grande accessibilité de l’outil.

Où Sora sera-t-il utile ?

Les capacités de Sora s'étendent à la création vidéo à partir de zéro, à l'allongement des séquences existantes et au remplissage transparent des images manquantes dans les vidéos.

De la même manière que les outils d'IA générative de texte en image ont révolutionné la création d'images sans compétences techniques en édition, Sora vise à simplifier la production vidéo sans avoir besoin d'expertise en édition d'images. Voici quelques principaux scénarios d’application :

  • Sora permet la création de vidéos courtes adaptées aux plateformes de médias sociaux telles que TikTok, Instagram Reels et YouTube Shorts. Il excelle particulièrement dans la création de contenus qui peuvent être difficiles ou peu pratiques à filmer à l'aide de méthodes traditionnelles.
  • Traditionnellement, les efforts coûteux tels que la production de publicités, de vidéos promotionnelles et de démonstrations de produits peuvent être considérablement simplifiés grâce aux outils d'IA de synthèse texte-vidéo comme Sora, qui offrent des solutions rentables.
  • Même si les vidéos générées par l’IA ne sont pas intégrées aux produits finaux, elles constituent des outils précieux pour illustrer rapidement des concepts. Les cinéastes peuvent utiliser l’IA pour réaliser des maquettes de scènes avant le tournage, tandis que les concepteurs peuvent visualiser les produits avant la fabrication. Par exemple, une entreprise de jouets pourrait employer Sora pour créer une maquette IA d'un nouveau jouet de bateau pirate afin d'évaluer sa faisabilité avant la production en série.
  • Les données synthétiques s'avèrent inestimables dans les situations où des problèmes de confidentialité ou de faisabilité empêchent l'utilisation de données réelles. Bien qu'elles soient généralement appliquées aux données numériques telles que les dossiers financiers et les informations personnelles identifiables, des données synthétiques ayant des propriétés similaires peuvent être générées pour une accessibilité plus large. Dans le domaine de la vidéo, les données synthétiques sont utiles pour entraîner les systèmes de vision par ordinateur.

Défis associés à Sora

  • En tant que produit nouvellement introduit, les risques de Sora ne sont pas encore entièrement élucidés ; cependant, ils devraient être similaires à ceux rencontrés avec les modèles texte-image.
  • Sans garanties suffisantes, Sora a le potentiel de créer du contenu répréhensible ou inapproprié, tel que des vidéos contenant de la violence, des images graphiques, du matériel sexuellement explicite, des représentations désobligeantes de groupes particuliers et la promotion ou la glorification d'activités illégales. Ce qui constitue un contenu inapproprié peut différer considérablement selon l'utilisateur (comme un enfant ou un adulte) et les circonstances dans lesquelles les vidéos sont générées (comme une vidéo éducative sur les dangers des feux d'artifice montrant par inadvertance des scènes graphiques).
  • Les exemples de vidéos partagés par OpenAI démontrer que l'une des capacités notables de Sora est sa capacité à créer des scénarios imaginatifs qui vont au-delà de la réalité. Néanmoins, cette capacité le rend également vulnérable à la génération de «faux profond" des vidéos, dans lesquelles des individus ou des situations authentiques sont modifiés pour véhiculer des mensonges, que ce soit involontairement (désinformation) ou intentionnel (désinformation). Un tel contenu peut entraîner des conséquences importantes.
  • Les résultats produits par les modèles d’IA génératifs sont intrinsèquement liés aux données sur lesquelles ils ont été formés. Par conséquent, des préjugés culturels ou des stéréotypes intégrés dans les données de formation peuvent apparaître dans les vidéos générées, perpétuant ainsi des problèmes similaires.

Que fait le OpenAI L'équipe fait-elle pour prévenir les risques mentionnés ci-dessus ?

Actuellement, Sora est exclusivement accessible aux «équipe rouge» Des chercheurs, des experts chargés d'identifier et d'atténuer les problèmes potentiels liés au modèle. Ces chercheurs s'efforcent de générer du contenu susceptible de présenter les risques décrits, permettant OpenAI pour répondre et rectifier tout problème avant la sortie publique de Sora.

Sora peut-il me laisser sans emploi ?

La capacité de Sora à produire du contenu vidéo de premier ordre basé sur des indices textuels a le potentiel d’initier des transformations notables dans le paysage de l’emploi créatif. Les postes conventionnels dans les domaines de la vidéographie, des effets spéciaux et de l’animation risquent de devenir obsolètes face à de tels progrès. Même si certains créatifs peuvent évoluer en perfectionnant leur expertise dans la supervision des fonctions de l’IA, l’utilisation éthique de l’IA et l’orientation créative pour exploiter les capacités de l’IA, la faisabilité de cette transition pour tous reste incertaine.

D’un autre côté, en réduisant les obstacles techniques et financiers associés à la production vidéo, Sora a le potentiel de permettre à un plus large éventail d’individus de créer du contenu de haute qualité. Cette démocratisation peut favoriser une recrudescence d’une distribution de contenus variés et inventifs. Bien qu’elle puisse nécessiter que les entités médiatiques et les créateurs de contenu établis s’adaptent et introduisent des approches innovantes, cette évolution pourrait annoncer des résultats positifs.

Quoi qu'il en soit, après la sortie massive, Sora provoquera sans aucun doute des changements dans le secteur de la vidéo et des industries connexes, ainsi que dans la création de contenu personnel.

Implications à long terme de OpenAI Sora

À mesure que Sora s’implante dans les flux de travail professionnels, son impact durable se dévoile :

Déverrouiller des cas d'utilisation à grande valeur ajoutée : l'intégration de Sora dans tous les secteurs promet des applications transformatrices, notamment :

  • Production de contenu accélérée : Sora rationalise la création multimédia dans les secteurs de la réalité virtuelle, de la réalité augmentée, des jeux et du divertissement traditionnel, accélérant les cycles de production et facilitant l'idéation.
  • Expériences personnalisées : un contenu sur mesure organisé par Sora pour correspondre aux préférences individuelles émerge, remodelant les paradigmes de divertissement et d'éducation pour s'adapter à divers styles et goûts d'apprentissage.
  • Adaptation en temps réel : le montage vidéo dynamique activé par Sora permet des modifications à la volée du contenu, en fonction des préférences du public et des commentaires en temps réel.
  • Brouiller les frontières numériques : la synergie de Sora avec la réalité virtuelle et la réalité augmentée brouille les frontières entre les domaines physique et numérique, présentant de nouvelles expériences immersives et des opportunités de narration interactive.

Essentiellement, l’avènement de Sora annonce une ère de transformation dans la création de contenu basée sur l’IA, remodelant en profondeur les industries, les récits et les expériences utilisateur.

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Zhauhazyn est rédacteur et spécialisé en sociologie. Fascinée par la dynamique complexe des études scientifiques et technologiques, elle approfondit le domaine de Web3 avec une fervente passion pour la blockchain.

Plus d'articles
Zhauhazyn Shaden
Zhauhazyn Shaden

Zhauhazyn est rédacteur et spécialisé en sociologie. Fascinée par la dynamique complexe des études scientifiques et technologiques, elle approfondit le domaine de Web3 avec une fervente passion pour la blockchain.

Hot Stories
Rejoignez notre newsletter.
Dernières infos

De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité

Explorons les initiatives exploitant le potentiel des monnaies numériques pour des causes caritatives.

En savoir plus

AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024

L'IA se manifeste de diverses manières dans le domaine des soins de santé, de la découverte de nouvelles corrélations génétiques à l'autonomisation des systèmes chirurgicaux robotisés...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Le jeton WLD de Worldcoin fera face à une pression de vente agressive avec davantage de déblocages dans les mois à venir, prévient DeFiTrader à 2 bits
Marchés Rapport de nouvelles Technologie
Le jeton WLD de Worldcoin fera face à une pression de vente agressive avec davantage de déblocages dans les mois à venir, prévient DeFiTrader à 2 bits
14 mai 2024
Crypto Exchange Coinbase connaît une panne du système, la société Wile sécurisée des fonds des utilisateurs enquête sur un problème
Marchés Rapport de nouvelles Technologie
Crypto Exchange Coinbase connaît une panne du système, la société Wile sécurisée des fonds des utilisateurs enquête sur un problème
14 mai 2024
De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité
Analyse Crypto Wiki La Brochure Éducation Lifestyle Marchés Logiciels Technologie
De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité
13 mai 2024
AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024
AI Wiki Analyse Digérer Opinion La Brochure Marchés Rapport de nouvelles Logiciels Histoires et critiques Technologie
AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024
13 mai 2024
CRYPTOMERIA LABS PTE. LTD.