Microsoft je uvedel multimodalni jezikovni model Otter za vizualno razumevanje, ki temelji na množičnem naboru podatkov vizualno-besedilnih navodil MIMIC-IT
Na kratko
Otter je vizualni jezikovni model (VLM), zgrajen na platformi OpenFlamingo, zasnovan za revolucijo vizualnega razumevanja in interakcijo z vizualno vsebino.
Vidra je vrhunski vizualni jezikovni model (VLM), zgrajen na OpenFlamingo platformo in naj bi izboljšala naš način interakcije z vizualno vsebino. V okviru ambicioznega projekta Otter, Microsoft uvedla ogromen poučen nabor vizualno-besedilnih podatkov, imenovan MIMIC-IT. Ta nabor podatkov vsebuje osupljivih 2.8 milijona parov povezanih multimodalnih navodil z odgovori, vključno z 2.2 milijona edinstvenih navodil, pridobljenih iz slik in videoposnetkov. Nabor podatkov je bil natančno kuriran za simulacijo naravnih dialogov, ki zajemajo scenarije, kot so opisi slik in videoposnetkov, primerjave slik, odgovarjanje na vprašanja, razumevanje prizorov in več. Ti visokokakovostni pari navodilo-odziv so bili ustvarjeni z uporabo močnega ChatGPT-0301 API, kar predstavlja naložbo v višini približno 20 tisoč USD.
Nabor podatkov MIMIC-IT igra ključno vlogo pri usposabljanju modela Otter, ki je bil zasnovan tako, da se odlikuje po razumevanju vizualnih prizorov, razmišljanju in logičnih sklepih. Vsak par navodil-odzivov v naboru podatkov spremljajo večmodalne informacije v kontekstu, ki ustvarjajo pogovorne kontekste, ki modelu omogočajo, da dojame nianse zaznavanja, razmišljanja in načrtovanja. Za povečanje obsega procesa opomb je Microsoft uporabil samodejni cevovod za opombe, imenovan Syphus, ki združuje človeško strokovno znanje in zmogljivosti GPT zagotoviti kakovost in raznolikost nabora podatkov.
Z uporabo nabora podatkov MIMIC-IT je Microsoft usposobil model Otter, obsežen VLM, ki temelji na platformi OpenFlamingo. Z obsežnimi evalvacijami primerjalnih vrednosti vizualnega jezika je Otter dokazal izjemno strokovnost v multimodalnem zaznavanju, razmišljanju in učenju v kontekstu. Človeške ocene so razkrile njegovo sposobnost, da se učinkovito uskladi z nameni uporabnika, zaradi česar je neprecenljivo orodje za tolmačenje in izvajanje kompleksnih nalog, ki temeljijo na navodilih naravnega jezika.
Otter v0.2 je razširil svoje zmogljivosti za podporo video vhodov, kar mu omogoča procesni okvirji in več slik kot primerov v kontekstu.
Izdaja nabora podatkov MIMIC-IT skupaj s cevovodom za zbiranje navodil-odzivov, merili uspešnosti in modelom Otter predstavlja pomemben mejnik na področju multimodalne jezikovne obdelave. Z dajanjem teh virov na voljo raziskovalcem in razvijalcem želi Microsoft spodbujati inovacije in sodelovanje ter omogočiti integracijo Otterja in OpenFlaminga v prilagojeno usposabljanje in cevovode sklepanja z uporabo priljubljenih Objemni obraz Okvir transformatorjev.
Podatkovni nabor MIMIC-IT zajema široko paleto scenarijev iz resničnega življenja, kar omogoča modelom Vision-Language (VLM) za razumevanje splošnih prizorov, razmišljanje o kontekstu in inteligentno razlikovanje med opažanji. To odpira možnosti, kot je razvoj egocentričnih modelov vizualnih pomočnikov, ki lahko odgovorijo na vprašanja, kot je: "Hej, misliš, da sem pustil ključe na mizi?".
MIMIC-IT ni omejen na angleški jezik. Podpira tudi več jezikov, vključno s kitajščino, korejščino, japonščino, nemščino, francoščino, španščino in arabščino. Ta večjezična podpora omogoča večjemu svetovnemu občinstvu, da izkoristi ugodnosti in napredek, ki ga prinaša umetna inteligenca.
Da bi zagotovili generiranje visokokakovostnih parov navodilo-odziv, Microsoft je predstavil Syphus, avtomatiziran cevovod, ki vključuje sistemska sporočila, vizualne opombe in primere v kontekstu kot pozive za ChatGPT. To zagotavlja zanesljivost in natančnost ustvarjenih parov navodilo-odziv v več jezikih.
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.