Rapport de nouvelles Technologie
29 mai 2023

Google a appris à Flamingo, modèle d'IA, à écrire des descriptions pour les vidéos YouTube

En bref

Flamingo résout le problème des vidéos courtes difficiles à trouver via la recherche en créant automatiquement des descriptions.

Google DeepMind, le laboratoire de recherche en IA, a développé un modèle de langage visuel appelé Flamingo capable d'écrire des descriptions pour de courtes vidéos sur YouTube. Le problème que Flamingo résout est que les courtes vidéos sont souvent difficiles à localiser via la recherche en raison du manque d'informations nécessaires dans la description. Le modèle Flamingo résout ce problème en générant automatiquement des textes pour des millions de courts clips vidéo sur des sites d'hébergement vidéo, qui sont utilisés « en coulisses » pour permettre une recherche facile. Bien que les auteurs de la vidéo ne voient pas les métadonnées, cela aide les téléspectateurs à trouver et à parcourir les courts métrages. Actuellement, Flamingo travaille depuis longtemps sur de nouveaux clips et traite des vidéos plus anciennes téléchargées sur YouTube.

Google a appris à Flamingo, modèle d'IA, à écrire des descriptions pour les vidéos YouTube
deepmind.com

Dans le passé, Google a introduit un algorithme permettant aux utilisateurs de rechercher des informations dans les vidéos à l'aide de la barre de recherche. Récemment, TwelveLabs a levé 12 millions de dollars auprès d'investisseurs pour un développement similaire. Ces outils créent de nouvelles opportunités pour la vidéo créateurs de contenu pour augmenter leur portée et leur visibilité. En tirant parti de l'IA pour améliorer et simplifier le processus de recherche et la découverte de contenus courts, DeepMind et des startups similaires révolutionnent la vidéo services de diffusion. Ils contribuent au développement de technologies de recherche plus intelligentes et efficaces, permettant aux téléspectateurs de trouver encore plus facilement du contenu qui les intéresse vraiment.

L'intelligence artificielle joue un rôle important dans la mise à niveau des technologies de recherche. En tirant parti de l'IA, le modèle Flamingo peut scanner et sérialiser le contenu et générer des textes qui résument le contenu pour aider les utilisateurs à naviguer. Le modèle Flamingo utilise des réseaux de neurones profonds pour générer des descriptions textuelles d'un clip vidéo en fonction du contenu audio et visuel de la vidéo. Il peut capturer les composants auditifs et visuels d'un contenu abrégé et les transformer en un résumé facile à rechercher et à consulter pour les utilisateurs.

L'utilisation de l'IA peut aider à identifier des informations importantes pour les utilisateurs, qui pourraient être manquées dans les efforts manuels des créateurs lors de l'ajout de descriptions. L'effort fastidieux pour capturer manuellement chaque détail n'est pas toujours pratique, en particulier avec le flux constant de contenus vidéo courts téléchargés sur des plateformes comme YouTube. Cela peut entraîner de la confusion et de la frustration chez les utilisateurs lors de la recherche de contenus courts spécifiques. Cependant, avec l'utilisation de modèles de langage visuel, tels que Flamingo, les métadonnées peuvent être générées automatiquement pour fournir un résumé facile d'accès, ce qui permet de gagner du temps et de rendre le processus de recherche plus efficace et précis.

Flamingo définit de nouveaux modèles de langage visuel de pointe pour les tâches ouvertes

Les détails les plus importants sont l'introduction de Flamingo, un modèle de langage visuel unique (VLM) qui définit un nouvel état de l'art dans l'apprentissage en quelques coups sur un large éventail de tâches multimodales ouvertes. Flamingo est un modèle de langage visuel unique (VLM) qui redefines apprentissage ponctuel à travers un large éventail d'activités multimodales ouvertes. Il reçoit un rapide composé d'images, de vidéos et de texte entrelacés comme entrée et sortie du langage associé. L'interface visuelle et textuelle de Flamingo, comme celles des grands modèles de langage (LLM), peut amener le modèle à atteindre un objectif multimodal. Le modèle peut se voir poser une question avec une image ou une vidéo fraîche, puis construire une réponse, étant donné quelques exemples de paires d'entrées visuelles et de réponses textuelles attendues composées dans l'invite de Flamingo.

Flamingo est un modèle de langage visuel qui fusionne de grands modèles de langage avec des représentations visuelles puissantes et est formé sur un mélange de données multimodales complémentaires à grande échelle provenant uniquement du Web sans utiliser de données annotées à des fins d'apprentissage automatique. Il bat toutes les approches d'apprentissage en quelques coups précédentes lorsqu'il ne donne que quatre exemples par tâche et surpasse les méthodes qui sont affinées et optimisées pour chaque tâche indépendamment et utilisent plusieurs ordres de grandeur de données plus spécifiques à la tâche. Il a également testé les capacités qualitatives du modèle au-delà de ses références actuelles, telles que le sous-titrage des images liées au sexe et à la couleur de la peau et l'exécution de ses sous-titres générés via l'API Perspective de Google, qui évalue la toxicité du texte. Flamingo permet de s'adapter efficacement à ces exemples et à d'autres tâches à la volée sans modifier le modèle et démontre des capacités de dialogue multimodales prêtes à l'emploi.

Flamingo est une famille de modèles à usage général qui peuvent être appliqués à des tâches de compréhension d'images et de vidéos avec un minimum d'exemples spécifiques à la tâche. Il s'agit d'une famille de modèles polyvalents efficaces et efficients qui peuvent être appliqués à des tâches de compréhension d'images et de vidéos avec un minimum d'exemples spécifiques à la tâche. Les capacités de Flamingo ouvrent la voie à des interactions riches avec des modèles de langage visuel appris qui peuvent permettre une meilleure interprétabilité et de nouvelles applications passionnantes, comme un assistant visuel.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
La Brochure Rapport de nouvelles Technologie
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
3 mai 2024
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
Marchés Rapport de nouvelles Technologie
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
3 mai 2024
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
Marchés Rapport de nouvelles Technologie
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
3 mai 2024
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
La Brochure Rapport de nouvelles Technologie
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
3 mai 2024
CRYPTOMERIA LABS PTE. LTD.