Novinky Technika
Června 12, 2023

Microsoft představil multimodální jazykový model Otter pro vizuální porozumění založený na rozsáhlé instruktážní vizuálně-textové datové sadě MIMIC-IT

Stručně

Otter je vizuální jazykový model (VLM) postavený na platformě OpenFlamingo, navržený tak, aby způsobil revoluci ve vizuálním porozumění a interakci s vizuálním obsahem.

Otter je špičkový vizuální jazykový model (VLM) postavený na OpenFlamingo platforma a je nastavena tak, aby zlepšila způsob, jakým pracujeme s vizuálním obsahem. V rámci ambiciózního projektu Vydra společnost Microsoft zavedena masivní instruktivní vizuálně-textová datová sada tzv MIMIC-IT. Tato datová sada obsahuje ohromujících 2.8 milionů párů propojených multimodálních instrukcí s odpověďmi, včetně 2.2 milionů jedinečných instrukcí odvozených z obrázků a videí. Soubor dat byl pečlivě upraven tak, aby simuloval přirozené dialogy, pokrýval scénáře, jako jsou popisy obrázků a videí, porovnávání obrázků, odpovídání na otázky, porozumění scénám a další. Tyto vysoce kvalitní páry instrukce-odpověď byly generovány pomocí výkonných ChatGPT-0301 API, což představuje investici přibližně 20 XNUMX $.

Microsoft představil multimodální jazykový model Otter pro vizuální porozumění založený na rozsáhlé instruktážní vizuálně-textové datové sadě MIMIC-IT

Datový soubor MIMIC-IT hraje klíčovou roli při trénování modelu Otter, který byl navržen tak, aby vynikal v porozumění vizuálním scénám, uvažování a logickým závěrům. Každý pár instrukce-odpověď v datové sadě je doprovázen multimodálními kontextovými informacemi, které vytvářejí konverzační kontexty, které umožňují modelu pochopit nuance vnímání, uvažování a plánování. Pro škálování procesu anotací použil Microsoft automatický anotační kanál s názvem Syphus, který kombinuje lidské zkušenosti s možnostmi GPT zajistit kvalitu a rozmanitost datového souboru.

Microsoft představil multimodální jazykový model Otter pro vizuální porozumění založený na rozsáhlé instruktážní vizuálně-textové datové sadě MIMIC-IT

Pomocí datové sady MIMIC-IT Microsoft trénoval model Otter, rozsáhlý VLM založený na platformě OpenFlamingo. Prostřednictvím rozsáhlých hodnocení srovnávacích testů vizuálního jazyka prokázal Otter pozoruhodnou odbornost v multimodálním vnímání, uvažování a učení v kontextu. Lidské hodnocení odhalilo jeho schopnost efektivně se sladit se záměry uživatele, což z něj činí neocenitelný nástroj pro interpretaci a provádění složitých úkolů založených na instrukcích přirozeného jazyka.

Otter v0.2 rozšířil své možnosti o podporu video vstupů, což jí umožňuje procesní rámce a více obrázků jako příklady v kontextu.

Vydání datové sady MIMIC-IT spolu s kanálem pro sběr instrukcí a odpovědí, benchmarky a modelem Otter představuje významný milník v oblasti multimodálního jazykového zpracování. Zpřístupněním těchto zdrojů výzkumníkům a vývojářům se Microsoft snaží podporovat inovace a spolupráci, což umožňuje integraci Otter a OpenFlamingo do přizpůsobených školicích a inferenčních kanálů pomocí populárních Objímání obličeje Rámec transformátorů.

Datový soubor MIMIC-IT zahrnuje širokou škálu reálných scénářů a umožňuje modelům Vision-Language Models (VLM) porozumět obecným scénám, uvažovat o kontextu a inteligentně rozlišovat mezi pozorováními. To otevírá možnosti, jako je vývoj egocentrických modelů vizuálních asistentů, kteří dokážou odpovědět na otázky typu: „Ahoj, myslíš, že jsem nechal klíče na stole?“.

MIMIC-IT není omezen na anglický jazyk. Podporuje také více jazyků, včetně čínštiny, korejštiny, japonštiny, němčiny, francouzštiny, španělštiny a arabštiny. Tato vícejazyčná podpora umožňuje širšímu globálnímu publiku těžit z pohodlí a vylepšení, které přináší AI.

Aby bylo zajištěno generování vysoce kvalitních párů instrukce-odpověď, Microsoft představila Syphus, automatizovaný kanál, který zahrnuje systémové zprávy, vizuální anotace a kontextové příklady jako výzvy k ChatGPT. To zajišťuje spolehlivost a přesnost generovaných párů instrukce-odpověď ve více jazycích.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Od zvlnění k velké zelené DAO: Jak kryptoměnové projekty přispívají k charitě

Pojďme prozkoumat iniciativy využívající potenciál digitálních měn pro charitativní účely.

Vědět více

AlphaFold 3, Med-Gemini a další: The Way AI Transforms Healthcare in 2024

Umělá inteligence se ve zdravotnictví projevuje různými způsoby, od odhalování nových genetických korelací až po posílení robotických chirurgických systémů...

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Od zvlnění k velké zelené DAO: Jak kryptoměnové projekty přispívají k charitě
Analýza Crypto Wiki Business Vzdělání Životní styl Trhy Vývoj Technika
Od zvlnění k velké zelené DAO: Jak kryptoměnové projekty přispívají k charitě
13
AlphaFold 3, Med-Gemini a další: The Way AI Transforms Healthcare in 2024
AI Wiki Analýza Strávit Názor Business Trhy Novinky Vývoj Příběhy a recenze Technika
AlphaFold 3, Med-Gemini a další: The Way AI Transforms Healthcare in 2024
13
Síť Nim zavede rámec tokenizace vlastnictví AI a provede prodej výnosů s datem snímku naplánovaným na květen
Trhy Novinky Technika
Síť Nim zavede rámec tokenizace vlastnictví AI a provede prodej výnosů s datem snímku naplánovaným na květen
13
Binance spolupracuje s Argentinou v boji proti počítačové kriminalitě
Názor Business Trhy Novinky Vývoj Technika
Binance spolupracuje s Argentinou v boji proti počítačové kriminalitě
13
CRYPTOMERIA LABS PTE. LTD.