Rapport de nouvelles Technologie
Le 12 juin 2023

Microsoft a introduit le modèle de langage multimodal Otter pour la compréhension visuelle basé sur l'ensemble de données de texte visuel d'instruction massive MIMIC-IT

En bref

Otter est un modèle de langage visuel (VLM) construit sur la plate-forme OpenFlamingo, conçu pour révolutionner la compréhension visuelle et interagir avec le contenu visuel.

Loutre est un modèle de langage visuel (VLM) de pointe construit sur le OuvrirFlamingo plate-forme, et il est conçu pour améliorer la façon dont nous interagissons avec le contenu visuel. Dans le cadre de l'ambitieux projet Otter, Microsoft a introduit un énorme ensemble de données de texte visuel instructif appelé MIMIC-IT. Cet ensemble de données contient un nombre impressionnant de 2.8 millions de paires d'instructions multimodales liées avec des réponses, dont 2.2 millions d'instructions uniques dérivées d'images et de vidéos. L'ensemble de données a été méticuleusement organisé pour simuler des dialogues naturels, couvrant des scénarios tels que des descriptions d'images et de vidéos, des comparaisons d'images, des questions-réponses, la compréhension de scènes, etc. Ces paires instruction-réponse de haute qualité ont été générées à l'aide du puissant ChatGPT-0301 API, représentant un investissement d'environ 20k$.

Microsoft a introduit le modèle de langage multimodal Otter pour la compréhension visuelle basé sur l'ensemble de données de texte visuel d'instruction massive MIMIC-IT

L'ensemble de données MIMIC-IT joue un rôle crucial dans la formation du modèle Otter, qui a été conçu pour exceller dans la compréhension des scènes visuelles, le raisonnement et les conclusions logiques. Chaque paire instruction-réponse de l'ensemble de données est accompagnée d'informations contextuelles multimodales, créant des contextes conversationnels qui permettent au modèle de saisir les nuances de la perception, du raisonnement et de la planification. Pour faire évoluer le processus d'annotation, Microsoft a utilisé un pipeline d'annotation automatique nommé Syphus, qui combine l'expertise humaine avec les capacités de GPT pour assurer la qualité et la diversité de l'ensemble de données.

Microsoft a introduit le modèle de langage multimodal Otter pour la compréhension visuelle basé sur l'ensemble de données de texte visuel d'instruction massive MIMIC-IT

À l'aide de l'ensemble de données MIMIC-IT, Microsoft a formé le modèle Otter, un VLM à grande échelle basé sur la plate-forme OpenFlamingo. Grâce à des évaluations approfondies sur les repères du langage visuel, Otter a démontré une maîtrise remarquable de la perception multimodale, du raisonnement et de l'apprentissage en contexte. Les évaluations humaines ont révélé sa capacité à s'aligner efficacement sur les intentions de l'utilisateur, ce qui en fait un outil inestimable pour interpréter et exécuter des tâches complexes basées sur des instructions en langage naturel.

Otter v0.2 a étendu ses capacités pour prendre en charge les entrées vidéo, ce qui lui permet de trames de processus et plusieurs images comme exemples en contexte.

La publication de l'ensemble de données MIMIC-IT, ainsi que du pipeline de collecte d'instructions-réponses, des benchmarks et du modèle Otter, représente une étape importante dans le domaine du traitement multimodal du langage. En mettant ces ressources à la disposition des chercheurs et des développeurs, Microsoft vise à favoriser l'innovation et la collaboration, permettant l'intégration d'Otter et d'OpenFlamingo dans des pipelines de formation et d'inférence personnalisés à l'aide du populaire Étreindre le visage Cadre des transformateurs.

L'ensemble de données MIMIC-IT englobe un large éventail de scénarios réels, permettant aux modèles vision-langage (VLM) de comprendre des scènes générales, de raisonner sur le contexte et de différencier intelligemment les observations. Cela ouvre des possibilités, telles que le développement de modèles d'assistants visuels égocentriques qui peuvent répondre à des questions telles que "Hé, pensez-vous que j'ai laissé mes clés sur la table?".

MIMIC-IT ne se limite pas à la langue anglaise. Il prend également en charge plusieurs langues, dont le chinois, le coréen, le japonais, l'allemand, le français, l'espagnol et l'arabe. Cette prise en charge multilingue permet à un public mondial plus large de bénéficier de la commodité et des avancées apportées par l'IA.

Pour assurer la génération de paires instruction-réponse de haute qualité, Microsoft a introduit Syphus, un pipeline automatisé qui intègre des messages système, des annotations visuelles et des exemples contextuels comme invites pour ChatGPT. Cela garantit la fiabilité et la précision des paires instruction-réponse générées dans plusieurs langues.

En savoir plus sur l'IA :

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Hot Stories
Rejoignez notre newsletter.
Dernières infos

De Ripple au Big Green DAO : comment les projets de crypto-monnaie contribuent à la charité

Explorons les initiatives exploitant le potentiel des monnaies numériques pour des causes caritatives.

En savoir plus

AlphaFold 3, Med-Gemini et autres : la façon dont l'IA transforme les soins de santé en 2024

L'IA se manifeste de diverses manières dans le domaine des soins de santé, de la découverte de nouvelles corrélations génétiques à l'autonomisation des systèmes chirurgicaux robotisés...

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Top 10 des outils d'IA gratuits pour la création de contenu, le montage vidéo et bien plus encore
AI Wiki Digérer Éducation Lifestyle Logiciels Technologie
Top 10 des outils d'IA gratuits pour la création de contenu, le montage vidéo et bien plus encore
14 mai 2024
La Commission des valeurs mobilières de Hong Kong met en garde contre les escroqueries Deepfake ciblant l'industrie de la cryptographie : implications pour la sécurité des investisseurs
Lifestyle Sécurité Wiki Logiciels Histoires et critiques Technologie
La Commission des valeurs mobilières de Hong Kong met en garde contre les escroqueries Deepfake ciblant l'industrie de la cryptographie : implications pour la sécurité des investisseurs
14 mai 2024
Ripple et Evmos collaborent sur le développement de la sidechain XRP Ledger EVM avec la technologie EvmOS
La Brochure Rapport de nouvelles Technologie
Ripple et Evmos collaborent sur le développement de la sidechain XRP Ledger EVM avec la technologie EvmOS
14 mai 2024
5ireChain lance « Testnet Thunder : GA » incitatif pour les tests de résistance du réseau et invite les utilisateurs à participer Airdrop Programme de fidélité
Rapport de nouvelles Technologie
5ireChain lance « Testnet Thunder : GA » incitatif pour les tests de résistance du réseau et invite les utilisateurs à participer Airdrop Programme de fidélité
14 mai 2024
CRYPTOMERIA LABS PTE. LTD.