OpenFlamingo: Ett nytt bild-till-text-ramverk med öppen källkod från Meta AI och LAION
I korthet
OpenFlamingo är en öppen källkodsversion av DeepMinds Flamingo-modell, byggd ovanpå LLaMA stor språkmodell.
Utvecklare hoppas kunna skapa ett multimodalt system som kan hantera vision-språkliga utmaningar och lika GPT-4s styrka och anpassningsförmåga vid hantering av visuell och textinmatning.
Open-source-versionen av DeepMinds Flamingo-modell, OpenFlamingo, har precis släppts. OpenFlamingo är i grunden ett ramverk som tillåter utbildning och bedömning av stora multimodala modeller (LMM). OpenFlamingo är byggd ovanpå LLaMA stor språkmodell utvecklad av Meta AI.
Utvecklarnas bidrag till denna första version är följande:
- En ansenlig multimodal datauppsättning som kombinerar text och visuella sekvenser.
- Ett riktmärke för inlärningsutvärdering i sammanhang för aktiviteter inklusive syn och språk.
- En preliminär version av vår LLaMA-baserad OpenFlamingo-9B-modell.
Genom OpenFlamingo hoppas utvecklare skapa ett multimodalt system som kan hantera en mängd olika visionspråkliga utmaningar. Det yttersta målet är att bli lika GPT-4s styrka och anpassningsförmåga vid hantering av visuell och textinmatning. Utvecklare utvecklar en öppen källkodsversion av DeepMinds Flamingo-modell, en LMM som kan bearbeta och resonera kring bilder, videor och text, för att uppnå detta mål. Utvecklare är dedikerade till att utveckla helt öppen källkodsmodeller eftersom de tror att transparens är avgörande för att främja samarbete, påskynda utvecklingen och demokratisera tillgången till banbrytande LMM.
De tillhandahåller vår OpenFlamingo-9B-modells första kontrollpunkt. Även om modellen ännu inte är helt optimerad visar den projektets löfte. Utvecklare kan träna bättre LMM:er genom att samarbeta och få feedback från communityn. De uppmanar allmänheten att ge input och lägga till förvaret för att kunna ta del av utvecklingsprocessen.
Implementeringen påminner mycket om Flamingos. Flamingomodeller måste tränas på storskaliga webbdataset med interfolierad text och grafik att utrusta dem med inlärningsförmåga i sammanhanget. Samma arkitektur som föreslogs i den ursprungliga Flamingo-studien (Perceiver resamplers, cross-attention layers) är implementerad i OpenFlamingo. Men eftersom Flamingos träningsdata inte är tillgänglig för allmänheten använder utvecklare datauppsättningar med öppen källkod för att träna modeller. Den nyligen publicerade OpenFlamingo-9B-kontrollpunkten tränades specifikt på 10M prover från LAION-2B och 5M prover från den nya Multimodal C4-datauppsättningen.
Utvecklare inkluderar också en checkpoint från vår ofärdiga LMM OpenFlamingo-9B, som är baserad på LLaMA 7B och CLIP ViT/L-14, som en del av releasen. Även om detta koncept fortfarande utvecklas kan samhället redan ha stor nytta av det.
För att komma igång, titta på GitHub källa och demo.
Läs mer om AI:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.