OpenFlamingo: un nou marc d'imatge a text de codi obert de Meta AI i LAION
En breu
OpenFlamingo és una versió de codi obert del model Flamingo de DeepMind, construïda sobre el LLaMA gran model de llengua.
Els desenvolupadors esperen crear un sistema multimodal que pugui gestionar els reptes del llenguatge de visió i igual GPT-4la força i l'adaptabilitat de l'usuari a l'hora de gestionar l'entrada visual i de text.
La versió de codi obert del model Flamingo de DeepMind, OpenFlamingo, acaba de ser estrenat. OpenFlamingo és fonamentalment un marc que permet l'entrenament i l'avaluació de models multimodals (LMM) importants. OpenFlamingo està construït a la part superior LLaMA model de llenguatge gran desenvolupat per Meta AI.
Les contribucions dels desenvolupadors a aquesta primera versió són les següents:
- Un conjunt de dades multimodal important que combina text i seqüències visuals.
- Un punt de referència per a l'avaluació de l'aprenentatge en context per a activitats que inclouen la visió i el llenguatge.
- Una versió preliminar del nostre LLaMAmodel basat en OpenFlamingo-9B.
Mitjançant OpenFlamingo, els desenvolupadors esperen crear un sistema multimodal que pugui gestionar una varietat de reptes de llenguatge de visió. L'objectiu final és igualar GPT-4la força i l'adaptabilitat de l'usuari a l'hora de gestionar l'entrada visual i de text. Els desenvolupadors estan desenvolupant una versió de codi obert del model Flamingo de DeepMind, un LMM capaç de processar i raonar sobre imatges, vídeos i text, per tal d'aconseguir aquest objectiu. Els desenvolupadors es dediquen a desenvolupar models totalment de codi obert perquè pensen que la transparència és crucial per promoure la cooperació, accelerar el desenvolupament i democratitzar l'accés a LMM d'avantguarda.
Estan proporcionant el punt de control inicial del nostre model OpenFlamingo-9B. Tot i que el model encara no està totalment optimitzat, mostra la promesa del projecte. Els desenvolupadors poden entrenar millors LMM cooperant i obtenint comentaris de la comunitat. Conviden al públic a aportar aportacions i afegir-hi el repositori per tal de participar en el procés de desenvolupament.
La implementació s'assembla molt a la de Flamingo. Els models Flamingo s'han d'entrenar en conjunts de dades web a gran escala amb text entrellaçat i gràfics per equipar-los amb habilitats d'aprenentatge de pocs cops en el context. La mateixa arquitectura que es va suggerir a l'estudi original de Flamingo (resamplers de perceptors, capes d'atenció creuada) s'implementa a OpenFlamingo. Però, com que les dades d'entrenament de Flamingo no són accessibles al públic en general, els desenvolupadors utilitzen conjunts de dades de codi obert per entrenar models. El punt de control OpenFlamingo-9B recentment publicat es va entrenar específicament en 10 milions de mostres de LAION-2B i 5 milions de mostres del nou conjunt de dades Multimodal C4.
Els desenvolupadors també inclouen un punt de control del nostre LMM inacabat OpenFlamingo-9B, que es basa en LLaMA 7B i CLIP ViT/L-14, com a part del llançament. Tot i que aquest concepte encara s'està desenvolupant, la comunitat ja se'n pot beneficiar molt.
Per començar, mireu GitHub font i Demo.
Llegeix més sobre AI:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.