OpenFlamingo : un nouveau framework image-texte open source de Meta AI et LAION
En bref
OpenFlamingo est une version open-source du modèle Flamingo de DeepMind, construite sur le LLaMA grand modèle de langage.
Les développeurs espèrent créer un système multimodal capable de relever les défis du langage visuel et d'égaliser GPT-4La force et l'adaptabilité de dans la gestion de la saisie visuelle et textuelle.
La version open-source du modèle Flamingo de DeepMind, OuvrirFlamingo, vient de sortir. OpenFlamingo est fondamentalement un framework qui permet la formation et l'évaluation de modèles multimodaux (LMM) de grande taille. OpenFlamingo est construit sur le dessus de LLaMA grand modèle de langage développé par Meta AI.
Lire la suite: UTILISATION Midjourney pour Free Forever : 5 étapes simples |
Les contributions des développeurs à cette première version sont les suivantes :
- Un ensemble de données multimodal important qui combine des séquences textuelles et visuelles.
- Une référence pour l'évaluation de l'apprentissage en contexte pour des activités incluant la vision et le langage.
- Une version préliminaire de notre LLaMA-modèle OpenFlamingo-9B basé.
Grâce à OpenFlamingo, les développeurs espèrent créer un système multimodal capable de gérer une variété de défis en matière de langage de vision. Le but ultime est d'égaler GPT-4La force et l'adaptabilité de dans la gestion de la saisie visuelle et textuelle. Les développeurs développent une version open source du modèle Flamingo de DeepMind, un LMM capable de traiter et de raisonner sur des images, des vidéos et du texte, afin d'atteindre cet objectif. Les développeurs se consacrent au développement de modèles entièrement open source car ils pensent que la transparence est cruciale pour promouvoir la coopération, accélérer le développement et démocratiser l'accès aux LMM de pointe.
Ils fournissent le point de contrôle initial de notre modèle OpenFlamingo-9B. Bien que le modèle ne soit pas encore entièrement optimisé, il montre la promesse du projet. Les développeurs peuvent former de meilleurs LMM en coopérant et en obtenant les commentaires de la communauté. Ils invitent le public à donner leur avis et à alimenter le référentiel afin de participer au processus de développement.
L'implémentation ressemble beaucoup à celle de Flamingo. Les modèles Flamingo doivent être formés sur des ensembles de données Web à grande échelle avec du texte entrelacé et graphique pour les doter de compétences d'apprentissage en contexte en quelques coups. La même architecture que celle suggérée dans l'étude Flamingo originale (rééchantillonneurs Perceiver, couches d'attention croisée) est implémentée dans OpenFlamingo. Mais, comme les données de formation de Flamingo ne sont pas accessibles au grand public, les développeurs utilisent des ensembles de données open source pour former des modèles. Le point de contrôle OpenFlamingo-9B récemment publié a été spécifiquement formé sur 10 millions d'échantillons de LAION-2B et 5 millions d'échantillons du nouvel ensemble de données multimodal C4.
Les développeurs incluent également un point de contrôle de notre LMM inachevé OpenFlamingo-9B, basé sur LLaMA 7B et CLIP ViT/L-14, dans le cadre de la version. Même si ce concept est encore en développement, la communauté pourrait déjà en bénéficier grandement.
Pour commencer, regardez le GitHub source et demo.
En savoir plus sur l'IA :
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.