Tudósítást Technológia
Június 12, 2023

A Microsoft bevezette az Otter multimodális nyelvi modellt a vizuális megértéshez a hatalmas oktatási vizuális szöveges MIMIC-IT adatkészlet alapján

Röviden

Az Otter egy vizuális nyelvi modell (VLM), amely az OpenFlamingo platformra épül, és amelyet a vizuális megértés forradalmasítására és a vizuális tartalommal való interakcióra terveztek.

Vidra egy élvonalbeli vizuális nyelvi modell (VLM), amely a OpenFlamingo platformon, és célja, hogy javítsa a vizuális tartalommal való interakciót. Az ambiciózus Otter projekt részeként a Microsoft bevezette nevű hatalmas, tanulságos vizuális-szöveges adatkészlet MIMIC-IT. Ez az adatkészlet elképesztő 2.8 millió pár összekapcsolt multimodális utasítást tartalmaz válaszokkal, köztük 2.2 millió egyedi utasítást, amelyek képekből és videókból származnak. Az adatkészletet aprólékosan összeállították, hogy szimulálják a természetes párbeszédeket, lefedve az olyan forgatókönyveket, mint a kép- és videóleírások, a kép-összehasonlítások, a kérdések megválaszolása, a jelenetek megértése stb. Ezeket a kiváló minőségű utasítás-válasz párokat a hatékony eszközök segítségével hozták létre ChatGPT-0301 API, amely körülbelül 20 XNUMX USD befektetést jelent.

A Microsoft bevezette az Otter multimodális nyelvi modellt a vizuális megértéshez a hatalmas oktatási vizuális szöveges MIMIC-IT adatkészlet alapján

A MIMIC-IT adatkészlet döntő szerepet játszik az Otter modell képzésében, amelyet úgy terveztek, hogy kiválóan megértse a vizuális jeleneteket, az érvelést és a logikai következtetéseket. Az adatkészletben minden egyes utasítás-válasz párhoz multimodális kontextuson belüli információ társul, így olyan társalgási kontextusokat hoznak létre, amelyek lehetővé teszik a modell számára, hogy megragadja az észlelés, az érvelés és a tervezés árnyalatait. Az annotációs folyamat méretezésére a Microsoft egy Syphus nevű automatikus annotációs folyamatot alkalmazott, amely egyesíti az emberi szakértelmet a GPT hogy biztosítsuk az adatkészlet minőségét és sokszínűségét.

A Microsoft bevezette az Otter multimodális nyelvi modellt a vizuális megértéshez a hatalmas oktatási vizuális szöveges MIMIC-IT adatkészlet alapján

A MIMIC-IT adatkészlet segítségével a Microsoft betanította az Otter modellt, egy nagyszabású VLM-et, amely az OpenFlamingo platformon alapul. A látás-nyelvi benchmarkok kiterjedt értékelése révén Otter figyelemre méltó jártasságot mutatott be a multimodális észlelés, érvelés és kontextuson belüli tanulás terén. Az emberi értékelések feltárták, hogy képes hatékonyan igazodni a felhasználó szándékaihoz, így felbecsülhetetlen értékű eszköz a természetes nyelvi utasításokon alapuló összetett feladatok értelmezéséhez és végrehajtásához.

Az Otter v0.2 kibővítette képességeit a videobemenetek támogatására, lehetővé téve számára folyamat keretei és több kép kontextusbeli példaként.

A MIMIC-IT adatkészlet kiadása az utasítás-válasz gyűjtési folyamattal, a benchmarkokkal és az Otter modellel együtt jelentős mérföldkövet jelent a multimodális nyelvi feldolgozás területén. Azáltal, hogy ezeket az erőforrásokat a kutatók és fejlesztők rendelkezésére bocsátja, a Microsoft célja az innováció és az együttműködés előmozdítása, lehetővé téve az Otter és az OpenFlamingo integrálását testreszabott képzési és következtetési folyamatokba a népszerű Átölelő arc Transformers keretrendszer.

A MIMIC-IT adatkészlet a valós forgatókönyvek széles skáláját öleli fel, lehetővé téve a Vision-Language Model (VLM) számára az általános jelenetek megértését, a kontextus megfontolását és a megfigyelések intelligens megkülönböztetését. Ez olyan lehetőségeket nyit meg, mint például az egocentrikus vizuális asszisztens modellek kifejlesztése, amelyek olyan kérdésekre válaszolnak, mint: „Hé, szerinted az asztalon hagytam a kulcsaimat?”.

A MIMIC-IT nem korlátozódik az angol nyelvre. Több nyelvet is támogat, beleértve a kínait, koreaiat, japánt, németet, franciát, spanyolt és arabot. Ez a többnyelvű támogatás lehetővé teszi a szélesebb globális közönség számára, hogy részesüljön az AI által nyújtott kényelemből és fejlesztésekből.

A jó minőségű utasítás-válasz párok létrehozásának biztosítása érdekében, microsoft bevezette a Syphust, egy automatizált folyamatot, amely rendszerüzeneteket, vizuális megjegyzéseket és kontextusbeli példákat foglal magában ChatGPT. Ez biztosítja a generált utasítás-válasz párok megbízhatóságát és pontosságát több nyelven.

Tudjon meg többet az AI-ról:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
A Notcoin azt tervezi, hogy tokenkészletének 5%-át 500,000 XNUMX közösségi tagnak és kriptocsere-felhasználónak osztja szét
piacok Tudósítást Technológia
A Notcoin azt tervezi, hogy tokenkészletének 5%-át 500,000 XNUMX közösségi tagnak és kriptocsere-felhasználónak osztja szét
May 13, 2024
Donald Trump átállása a kriptográfia felé: az ellenfélből a szószólóvá, és mit jelent ez az amerikai kriptovaluta piac számára
üzleti piacok Történetek és vélemények Technológia
Donald Trump átállása a kriptográfia felé: az ellenfélből a szószólóvá, és mit jelent ez az amerikai kriptovaluta piac számára
May 10, 2024
3. réteg az L3 Token bevezetésére ezen a nyáron, amely a teljes kínálat 51%-át a közösségnek osztja
piacok Tudósítást Technológia
3. réteg az L3 Token bevezetésére ezen a nyáron, amely a teljes kínálat 51%-át a közösségnek osztja
May 10, 2024
Edward Snowden utolsó figyelmeztetése a Bitcoin fejlesztői számára: „Tegye az adatvédelmet protokollszintű prioritássá, vagy kockáztassa az elvesztését
piacok Biztonság Wiki szoftver Történetek és vélemények Technológia
Edward Snowden utolsó figyelmeztetése a Bitcoin fejlesztői számára: „Tegye az adatvédelmet protokollszintű prioritássá, vagy kockáztassa az elvesztését
May 10, 2024
CRYPTOMERIA LABS PTE. KFT.