Novinová správa Technológia
Júna 12, 2023

Spoločnosť Microsoft predstavila multimodálny jazykový model Otter pre vizuálne porozumenie na základe rozsiahleho inštruktážneho súboru vizuálno-textových údajov MIMIC-IT

Stručne

Otter je vizuálny jazykový model (VLM) postavený na platforme OpenFlamingo, navrhnutý tak, aby priniesol revolúciu do vizuálneho chápania a interakcie s vizuálnym obsahom.

vydra je špičkový vizuálny jazykový model (VLM) postavený na OpenFlamingo platforma a je nastavená na zlepšenie spôsobu, akým interagujeme s vizuálnym obsahom. V rámci ambiciózneho projektu Otter spoločnosť Microsoft zaviedla masívny inštruktívny vizuálno-textový dátový súbor tzv MIMIC-IT. Tento súbor údajov obsahuje ohromujúcich 2.8 milióna párov prepojených multimodálnych inštrukcií s odpoveďami, vrátane 2.2 milióna jedinečných inštrukcií odvodených z obrázkov a videí. Súbor údajov bol starostlivo navrhnutý tak, aby simuloval prirodzené dialógy, pokrývajúci scenáre, ako sú popisy obrázkov a videí, porovnania obrázkov, odpovedanie na otázky, pochopenie scén a ďalšie. Tieto vysokokvalitné páry inštrukcia-odpoveď boli vygenerované pomocou výkonných ChatGPT-0301 API, čo predstavuje investíciu približne 20 XNUMX USD.

Spoločnosť Microsoft predstavila multimodálny jazykový model Otter pre vizuálne porozumenie na základe rozsiahleho inštruktážneho súboru vizuálno-textových údajov MIMIC-IT

Súbor údajov MIMIC-IT hrá kľúčovú úlohu pri trénovaní modelu Otter, ktorý bol navrhnutý tak, aby vynikal v pochopení vizuálnych scén, uvažovania a logických záverov. Každý pár inštrukcia-odpoveď v súbore údajov je sprevádzaný multimodálnymi informáciami v kontexte, čím sa vytvárajú konverzačné kontexty, ktoré umožňujú modelu pochopiť nuansy vnímania, uvažovania a plánovania. Na škálovanie procesu anotácií spoločnosť Microsoft použila automatický anotačný kanál s názvom Syphus, ktorý spája ľudské znalosti s možnosťami GPT zabezpečiť kvalitu a rozmanitosť súboru údajov.

Spoločnosť Microsoft predstavila multimodálny jazykový model Otter pre vizuálne porozumenie na základe rozsiahleho inštruktážneho súboru vizuálno-textových údajov MIMIC-IT

Pomocou dátového súboru MIMIC-IT Microsoft trénoval model Otter, rozsiahly VLM založený na platforme OpenFlamingo. Prostredníctvom rozsiahlych hodnotení referenčných hodnôt jazyka vízie Otter preukázal pozoruhodnú odbornosť v multimodálnom vnímaní, uvažovaní a učení sa v kontexte. Ľudské hodnotenia odhalili jeho schopnosť efektívne sa zosúladiť so zámermi používateľa, čo z neho robí neoceniteľný nástroj na interpretáciu a vykonávanie zložitých úloh založených na pokynoch v prirodzenom jazyku.

Otter v0.2 rozšíril svoje možnosti o podporu video vstupov, čo jej umožňuje procesné rámy a viaceré obrázky ako príklady v kontexte.

Vydanie dátového súboru MIMIC-IT spolu s potrubím na zber inštrukcií a odpovedí, benchmarkmi a modelom Otter predstavuje významný míľnik v oblasti multimodálneho spracovania jazykov. Sprístupnením týchto zdrojov výskumníkom a vývojárom sa spoločnosť Microsoft snaží podporiť inovácie a spoluprácu, čo umožní integráciu Otter a OpenFlamingo do prispôsobených vzdelávacích a inferenčných kanálov pomocou populárnych Objímajúca tvár Rámec transformátorov.

Súbor údajov MIMIC-IT zahŕňa širokú škálu scenárov zo skutočného života, čím umožňuje modelom Vision-Language Model (VLM) porozumieť všeobecným scénam, zdôvodňovať kontext a inteligentne rozlišovať medzi pozorovaniami. To otvára možnosti, ako napríklad vývoj egocentrických modelov vizuálnych asistentov, ktoré dokážu odpovedať na otázky typu: „Ahoj, myslíš, že som nechal kľúče na stole?“.

MIMIC-IT sa neobmedzuje len na anglický jazyk. Podporuje tiež viacero jazykov vrátane čínštiny, kórejčiny, japončiny, nemčiny, francúzštiny, španielčiny a arabčiny. Táto viacjazyčná podpora umožňuje väčšiemu globálnemu publiku využívať výhody a vylepšenia, ktoré prináša AI.

Aby sa zabezpečilo generovanie vysoko kvalitných párov inštrukcie a odpovede, Microsoft predstavila Syphus, automatizovaný kanál, ktorý zahŕňa systémové správy, vizuálne anotácie a kontextové príklady ako výzvy na ChatGPT. To zaisťuje spoľahlivosť a presnosť vygenerovaných párov inštrukcie a odpovede vo viacerých jazykoch.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite

Poďme preskúmať iniciatívy, ktoré využívajú potenciál digitálnych mien na charitatívne účely.

vedieť viac

AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024

Umelá inteligencia sa v zdravotníctve prejavuje rôznymi spôsobmi, od odhaľovania nových genetických korelácií až po posilnenie robotických chirurgických systémov...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite
Analýza Crypto Wiki firmy vzdelanie Životný štýl trhy Softvér Technológia
Od zvlnenia k veľkému zelenému DAO: Ako kryptomenové projekty prispievajú k charite
Môže 13, 2024
AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024
AI Wiki Analýza výťah Názor firmy trhy Novinová správa Softvér Príbehy a recenzie Technológia
AlphaFold 3, Med-Gemini a ďalší: Spôsob, akým AI transformuje zdravotnú starostlivosť v roku 2024
Môže 13, 2024
Sieť Nim zavedie rámec tokenizácie vlastníctva AI a uskutoční predaj výnosov s dátumom snímky naplánovaným na máj
trhy Novinová správa Technológia
Sieť Nim zavedie rámec tokenizácie vlastníctva AI a uskutoční predaj výnosov s dátumom snímky naplánovaným na máj
Môže 13, 2024
Binance spolupracuje s Argentínou v boji proti počítačovej kriminalite
Názor firmy trhy Novinová správa Softvér Technológia
Binance spolupracuje s Argentínou v boji proti počítačovej kriminalite
Môže 13, 2024
CRYPTOMERIA LABS PTE. LTD.