A Microsoft bevezette az Otter multimodális nyelvi modellt a vizuális megértéshez a hatalmas oktatási vizuális szöveges MIMIC-IT adatkészlet alapján
Röviden
Az Otter egy vizuális nyelvi modell (VLM), amely az OpenFlamingo platformra épül, és amelyet a vizuális megértés forradalmasítására és a vizuális tartalommal való interakcióra terveztek.
Vidra egy élvonalbeli vizuális nyelvi modell (VLM), amely a OpenFlamingo platformon, és célja, hogy javítsa a vizuális tartalommal való interakciót. Az ambiciózus Otter projekt részeként a Microsoft bevezette nevű hatalmas, tanulságos vizuális-szöveges adatkészlet MIMIC-IT. Ez az adatkészlet elképesztő 2.8 millió pár összekapcsolt multimodális utasítást tartalmaz válaszokkal, köztük 2.2 millió egyedi utasítást, amelyek képekből és videókból származnak. Az adatkészletet aprólékosan összeállították, hogy szimulálják a természetes párbeszédeket, lefedve az olyan forgatókönyveket, mint a kép- és videóleírások, a kép-összehasonlítások, a kérdések megválaszolása, a jelenetek megértése stb. Ezeket a kiváló minőségű utasítás-válasz párokat a hatékony eszközök segítségével hozták létre ChatGPT-0301 API, amely körülbelül 20 XNUMX USD befektetést jelent.
A MIMIC-IT adatkészlet döntő szerepet játszik az Otter modell képzésében, amelyet úgy terveztek, hogy kiválóan megértse a vizuális jeleneteket, az érvelést és a logikai következtetéseket. Az adatkészletben minden egyes utasítás-válasz párhoz multimodális kontextuson belüli információ társul, így olyan társalgási kontextusokat hoznak létre, amelyek lehetővé teszik a modell számára, hogy megragadja az észlelés, az érvelés és a tervezés árnyalatait. Az annotációs folyamat méretezésére a Microsoft egy Syphus nevű automatikus annotációs folyamatot alkalmazott, amely egyesíti az emberi szakértelmet a GPT hogy biztosítsuk az adatkészlet minőségét és sokszínűségét.
A MIMIC-IT adatkészlet segítségével a Microsoft betanította az Otter modellt, egy nagyszabású VLM-et, amely az OpenFlamingo platformon alapul. A látás-nyelvi benchmarkok kiterjedt értékelése révén Otter figyelemre méltó jártasságot mutatott be a multimodális észlelés, érvelés és kontextuson belüli tanulás terén. Az emberi értékelések feltárták, hogy képes hatékonyan igazodni a felhasználó szándékaihoz, így felbecsülhetetlen értékű eszköz a természetes nyelvi utasításokon alapuló összetett feladatok értelmezéséhez és végrehajtásához.
Az Otter v0.2 kibővítette képességeit a videobemenetek támogatására, lehetővé téve számára folyamat keretei és több kép kontextusbeli példaként.
A MIMIC-IT adatkészlet kiadása az utasítás-válasz gyűjtési folyamattal, a benchmarkokkal és az Otter modellel együtt jelentős mérföldkövet jelent a multimodális nyelvi feldolgozás területén. Azáltal, hogy ezeket az erőforrásokat a kutatók és fejlesztők rendelkezésére bocsátja, a Microsoft célja az innováció és az együttműködés előmozdítása, lehetővé téve az Otter és az OpenFlamingo integrálását testreszabott képzési és következtetési folyamatokba a népszerű Átölelő arc Transformers keretrendszer.
A MIMIC-IT adatkészlet a valós forgatókönyvek széles skáláját öleli fel, lehetővé téve a Vision-Language Model (VLM) számára az általános jelenetek megértését, a kontextus megfontolását és a megfigyelések intelligens megkülönböztetését. Ez olyan lehetőségeket nyit meg, mint például az egocentrikus vizuális asszisztens modellek kifejlesztése, amelyek olyan kérdésekre válaszolnak, mint: „Hé, szerinted az asztalon hagytam a kulcsaimat?”.
A MIMIC-IT nem korlátozódik az angol nyelvre. Több nyelvet is támogat, beleértve a kínait, koreaiat, japánt, németet, franciát, spanyolt és arabot. Ez a többnyelvű támogatás lehetővé teszi a szélesebb globális közönség számára, hogy részesüljön az AI által nyújtott kényelemből és fejlesztésekből.
A jó minőségű utasítás-válasz párok létrehozásának biztosítása érdekében, microsoft bevezette a Syphust, egy automatizált folyamatot, amely rendszerüzeneteket, vizuális megjegyzéseket és kontextusbeli példákat foglal magában ChatGPT. Ez biztosítja a generált utasítás-válasz párok megbízhatóságát és pontosságát több nyelven.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.