OpenFlamingo: un nou cadru imagine-în-text cu sursă deschisă de la Meta AI și LAION
Pe scurt
OpenFlamingo este o versiune open-source a modelului Flamingo de la DeepMind, construită deasupra LLaMA model de limbaj mare.
Dezvoltatorii speră să creeze un sistem multimodal care să poată face față provocărilor de viziune și limbaj egal GPT-4puterea și adaptabilitatea lui în gestionarea introducerii vizuale și a textului.
Versiunea open-source a modelului Flamingo de la DeepMind, OpenFlamingo, tocmai a fost lansat. OpenFlamingo este în mod fundamental un cadru care permite formarea și evaluarea modelelor multimodale (LMM) considerabile. OpenFlamingo este construit deasupra LLaMA model de limbaj mare dezvoltat de Meta AI.
Contribuțiile dezvoltatorilor la această primă versiune sunt următoarele:
- Un set de date multimodal considerabil care combină text și secvențe vizuale.
- Un punct de referință pentru evaluarea învățării în context pentru activități, inclusiv viziune și limbaj.
- O versiune preliminară a noastră LLaMAmodel OpenFlamingo-9B bazat pe
Prin OpenFlamingo, dezvoltatorii speră să creeze un sistem multimodal care să poată face față unei varietăți de provocări ale limbajului vizual. Scopul final este egalitatea GPT-4puterea și adaptabilitatea lui în gestionarea introducerii vizuale și a textului. Dezvoltatorii dezvoltă o versiune open-source a modelului Flamingo de la DeepMind, un LMM capabil să proceseze și să raționeze despre imagini, videoclipuri și text, pentru a atinge acest obiectiv. Dezvoltatorii sunt dedicați dezvoltării de modele complet open-source, deoarece cred că transparența este crucială pentru promovarea cooperării, accelerarea dezvoltării și democratizarea accesului la LMM-uri de ultimă oră.
Ei furnizează punctul de control inițial al modelului nostru OpenFlamingo-9B. Deși modelul nu este încă în întregime optimizat, arată promisiunea proiectului. Dezvoltatorii pot antrena LMM-uri mai bune cooperând și obținând feedback-ul comunității. Ei invită publicul să contribuie și să adauge la depozit pentru a lua parte la procesul de dezvoltare.
Implementarea seamănă foarte mult cu cea a lui Flamingo. Modelele Flamingo trebuie instruite pe seturi de date web la scară largă cu text intercalat și grafică pentru a-i dota cu abilități de învățare în context în care nu se poate învăța. Aceeași arhitectură care a fost sugerată în studiul original Flamingo (resamplers Perceiver, straturi de atenție încrucișată) este implementată în OpenFlamingo. Dar, deoarece datele de antrenament ale lui Flamingo nu sunt accesibile publicului larg, dezvoltatorii folosesc seturi de date open-source pentru a antrena modele. Punctul de control OpenFlamingo-9B recent publicat a fost instruit în mod special pe 10 milioane de mostre din LAION-2B și 5 milioane de probe din noul set de date Multimodal C4.
Dezvoltatorii includ, de asemenea, un punct de control de la LMM nostru neterminat OpenFlamingo-9B, care se bazează pe LLaMA 7B și CLIP ViT/L-14, ca parte a versiunii. Chiar dacă acest concept este încă în curs de dezvoltare, comunitatea poate beneficia deja foarte mult de pe urma acestuia.
Pentru a începe, uită-te la GitHub sursa si Demo.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articoleDamir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.