Novice Tehnologija
Junij 12, 2023

Microsoft je uvedel multimodalni jezikovni model Otter za vizualno razumevanje, ki temelji na množičnem naboru podatkov vizualno-besedilnih navodil MIMIC-IT

Na kratko

Otter je vizualni jezikovni model (VLM), zgrajen na platformi OpenFlamingo, zasnovan za revolucijo vizualnega razumevanja in interakcijo z vizualno vsebino.

Vidra je vrhunski vizualni jezikovni model (VLM), zgrajen na OpenFlamingo platformo in naj bi izboljšala naš način interakcije z vizualno vsebino. V okviru ambicioznega projekta Otter, Microsoft uvedla ogromen poučen nabor vizualno-besedilnih podatkov, imenovan MIMIC-IT. Ta nabor podatkov vsebuje osupljivih 2.8 milijona parov povezanih multimodalnih navodil z odgovori, vključno z 2.2 milijona edinstvenih navodil, pridobljenih iz slik in videoposnetkov. Nabor podatkov je bil natančno kuriran za simulacijo naravnih dialogov, ki zajemajo scenarije, kot so opisi slik in videoposnetkov, primerjave slik, odgovarjanje na vprašanja, razumevanje prizorov in več. Ti visokokakovostni pari navodilo-odziv so bili ustvarjeni z uporabo močnega ChatGPT-0301 API, kar predstavlja naložbo v višini približno 20 tisoč USD.

Microsoft je uvedel multimodalni jezikovni model Otter za vizualno razumevanje, ki temelji na množičnem naboru podatkov vizualno-besedilnih navodil MIMIC-IT

Nabor podatkov MIMIC-IT igra ključno vlogo pri usposabljanju modela Otter, ki je bil zasnovan tako, da se odlikuje po razumevanju vizualnih prizorov, razmišljanju in logičnih sklepih. Vsak par navodil-odzivov v naboru podatkov spremljajo večmodalne informacije v kontekstu, ki ustvarjajo pogovorne kontekste, ki modelu omogočajo, da dojame nianse zaznavanja, razmišljanja in načrtovanja. Za povečanje obsega procesa opomb je Microsoft uporabil samodejni cevovod za opombe, imenovan Syphus, ki združuje človeško strokovno znanje in zmogljivosti GPT zagotoviti kakovost in raznolikost nabora podatkov.

Microsoft je uvedel multimodalni jezikovni model Otter za vizualno razumevanje, ki temelji na množičnem naboru podatkov vizualno-besedilnih navodil MIMIC-IT

Z uporabo nabora podatkov MIMIC-IT je Microsoft usposobil model Otter, obsežen VLM, ki temelji na platformi OpenFlamingo. Z obsežnimi evalvacijami primerjalnih vrednosti vizualnega jezika je Otter dokazal izjemno strokovnost v multimodalnem zaznavanju, razmišljanju in učenju v kontekstu. Človeške ocene so razkrile njegovo sposobnost, da se učinkovito uskladi z nameni uporabnika, zaradi česar je neprecenljivo orodje za tolmačenje in izvajanje kompleksnih nalog, ki temeljijo na navodilih naravnega jezika.

Otter v0.2 je razširil svoje zmogljivosti za podporo video vhodov, kar mu omogoča procesni okvirji in več slik kot primerov v kontekstu.

Izdaja nabora podatkov MIMIC-IT skupaj s cevovodom za zbiranje navodil-odzivov, merili uspešnosti in modelom Otter predstavlja pomemben mejnik na področju multimodalne jezikovne obdelave. Z dajanjem teh virov na voljo raziskovalcem in razvijalcem želi Microsoft spodbujati inovacije in sodelovanje ter omogočiti integracijo Otterja in OpenFlaminga v prilagojeno usposabljanje in cevovode sklepanja z uporabo priljubljenih Objemni obraz Okvir transformatorjev.

Podatkovni nabor MIMIC-IT zajema široko paleto scenarijev iz resničnega življenja, kar omogoča modelom Vision-Language (VLM) za razumevanje splošnih prizorov, razmišljanje o kontekstu in inteligentno razlikovanje med opažanji. To odpira možnosti, kot je razvoj egocentričnih modelov vizualnih pomočnikov, ki lahko odgovorijo na vprašanja, kot je: "Hej, misliš, da sem pustil ključe na mizi?".

MIMIC-IT ni omejen na angleški jezik. Podpira tudi več jezikov, vključno s kitajščino, korejščino, japonščino, nemščino, francoščino, španščino in arabščino. Ta večjezična podpora omogoča večjemu svetovnemu občinstvu, da izkoristi ugodnosti in napredek, ki ga prinaša umetna inteligenca.

Da bi zagotovili generiranje visokokakovostnih parov navodilo-odziv, Microsoft je predstavil Syphus, avtomatiziran cevovod, ki vključuje sistemska sporočila, vizualne opombe in primere v kontekstu kot pozive za ChatGPT. To zagotavlja zanesljivost in natančnost ustvarjenih parov navodilo-odziv v več jezikih.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Od valovanja do velikega zelenega DAO: Kako projekti kriptovalut prispevajo k dobrodelnosti

Raziščimo pobude, ki izkoriščajo potencial digitalnih valut za dobrodelne namene.

Več o tem

AlphaFold 3, Med-Gemini in drugi: način, kako umetna inteligenca spremeni zdravstveno varstvo leta 2024

Umetna inteligenca se v zdravstvu kaže na različne načine, od odkrivanja novih genetskih povezav do opolnomočenja robotskih kirurških sistemov ...

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Od valovanja do velikega zelenega DAO: Kako projekti kriptovalut prispevajo k dobrodelnosti
Analiza Crypto Wiki ŽELITE POSTATI PARTNER Izobraževanje Življenjski slog Prisotnost Software Tehnologija
Od valovanja do velikega zelenega DAO: Kako projekti kriptovalut prispevajo k dobrodelnosti
Maj 13, 2024
AlphaFold 3, Med-Gemini in drugi: način, kako umetna inteligenca spremeni zdravstveno varstvo leta 2024
AI Wiki Analiza prebaviti Mnenje ŽELITE POSTATI PARTNER Prisotnost Novice Software Zgodbe in ocene Tehnologija
AlphaFold 3, Med-Gemini in drugi: način, kako umetna inteligenca spremeni zdravstveno varstvo leta 2024
Maj 13, 2024
Omrežje Nim bo uvedlo okvir za tokenizacijo lastništva AI in izvedlo prodajo donosa z datumom posnetka, načrtovanim za maj
Prisotnost Novice Tehnologija
Omrežje Nim bo uvedlo okvir za tokenizacijo lastništva AI in izvedlo prodajo donosa z datumom posnetka, načrtovanim za maj
Maj 13, 2024
Binance sodeluje z Argentino za boj proti kibernetskemu kriminalu
Mnenje ŽELITE POSTATI PARTNER Prisotnost Novice Software Tehnologija
Binance sodeluje z Argentino za boj proti kibernetskemu kriminalu
Maj 13, 2024
CRYPTOMERIA LABS PTE. LTD.