OpenFlamingo: Nový rámec pre prenos obrázkov do textu s otvoreným zdrojom od Meta AI a LAION
Stručne
OpenFlamingo je open-source verzia modelu Flamingo od DeepMind, postavená na vrchole LLaMA veľký jazykový model.
Vývojári dúfajú, že vytvoria multimodálny systém, ktorý dokáže zvládnuť výzvy v oblasti vízie a jazyka GPT-4sila a prispôsobivosť pri manipulácii s vizuálnym a textovým vstupom.
Open-source verzia modelu Flamingo od DeepMind, OpenFlamingo, bol práve prepustený. OpenFlamingo je v podstate rámec, ktorý umožňuje školenie a hodnotenie rozsiahlych multimodálnych modelov (LMM). OpenFlamingo je postavené na vrchole LLaMA veľký jazykový model vyvinutý Meta AI.
Prečítajte si viac: Ako používať Midjourney navždy zadarmo: 5 jednoduchých krokov |
Príspevky vývojárov k tomuto prvému vydaniu sú nasledovné:
- Rozsiahly multimodálny súbor údajov, ktorý kombinuje textové a vizuálne sekvencie.
- Referenčné kritérium pre hodnotenie vzdelávania v kontexte pre aktivity vrátane vízie a jazyka.
- Predbežná verzia nášho LLaMA- založený na modeli OpenFlamingo-9B.
Vývojári dúfajú, že prostredníctvom OpenFlamingo vytvoria multimodálny systém, ktorý dokáže zvládnuť rôzne výzvy v oblasti vízie. Konečným cieľom je vyrovnať sa GPT-4sila a prispôsobivosť pri manipulácii s vizuálnym a textovým vstupom. Vývojári vyvíjajú open-source verziu modelu Flamingo od DeepMind, LMM schopného spracovávať a uvažovať o obrázkoch, videách a texte, aby dosiahli tento cieľ. Vývojári sa venujú vývoju úplne otvorených modelov, pretože si myslia, že transparentnosť je kľúčová pre podporu spolupráce, urýchlenie vývoja a demokratizáciu prístupu k špičkovým LMM.
Poskytujú počiatočný kontrolný bod nášho modelu OpenFlamingo-9B. Aj keď model ešte nie je úplne optimalizovaný, ukazuje prísľub projektu. Vývojári môžu trénovať lepších LMM spoluprácou a získavaním spätnej väzby od komunity. Vyzývajú verejnosť, aby prispela a pridala do úložiska, aby sa mohla zúčastniť procesu vývoja.
Implementácia sa veľmi podobá implementácii Flaminga. Modely plameniakov sa musia trénovať na rozsiahlych webových súboroch údajov s prekladaným textom a grafika vybaviť ich kontextovými vzdelávacími schopnosťami. Rovnaká architektúra, ktorá bola navrhnutá v pôvodnej štúdii Flamingo (Perceiver resamplery, cross-attention vrstvy) je implementovaná v OpenFlamingo. Keďže však tréningové údaje Flaminga nie sú prístupné širokej verejnosti, vývojári používajú na trénovanie modelov súbory údajov s otvoreným zdrojom. Novo publikovaný kontrolný bod OpenFlamingo-9B bol špeciálne trénovaný na 10 miliónoch vzoriek z LAION-2B a 5 miliónoch vzoriek z nového súboru údajov Multimodal C4.
Vývojári tiež zahŕňajú kontrolný bod z nášho nedokončeného LMM OpenFlamingo-9B, ktorý je založený na LLaMA 7B a CLIP ViT/L-14, ako súčasť vydania. Aj keď sa tento koncept stále vyvíja, komunita z neho už môže mať veľký úžitok.
Ak chcete začať, pozrite sa na GitHub zdroj a demonštrácie.
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.