Jūnijs 12, 2023

Korporācija Microsoft ir ieviesusi multimodālo valodu modeli Ūdri vizuālai izpratnei, pamatojoties uz masveida instrukciju vizuālā teksta datu kopu MIMIC-IT

Publicēts: 12. gada 2023. jūnijā, plkst. 8:58 Atjaunināts: 12. gada 2023. jūnijā, plkst. 8:58

Rediģēts un pārbaudīts ar faktiem: 12. gada 2023. jūnijs, plkst. 8:58

Īsumā

Otter ir vizuālās valodas modelis (VLM), kas izveidots uz OpenFlamingo platformas un ir paredzēts, lai mainītu vizuālo izpratni un mijiedarbotos ar vizuālo saturu.

Otter ir moderns vizuālās valodas modelis (VLM), kas izveidots uz OpenFlamingo platforma, un tā ir paredzēta, lai uzlabotu veidu, kā mēs mijiedarbojamies ar vizuālo saturu. Kā daļa no vērienīgā projekta Otter, Microsoft ir ieviesusi masveida pamācoša vizuālā teksta datu kopa MIMIC-IT. Šajā datu kopā ir satriecoši 2.8 miljoni pāru saistītu multimodālu instrukciju ar atbildēm, tostarp 2.2 miljoni unikālu norādījumu, kas iegūti no attēliem un videoklipiem. Datu kopa tika rūpīgi izstrādāta, lai modelētu dabiskus dialogus, aptverot tādus scenārijus kā attēlu un video apraksti, attēlu salīdzinājumi, atbildes uz jautājumiem, ainas izpratne un daudz ko citu. Šie augstas kvalitātes norādījumu un atbildes pāri tika ģenerēti, izmantojot jaudīgo ChatGPT-0301 API, kas ir ieguldījums aptuveni 20 XNUMX USD apmērā.

Korporācija Microsoft ir ieviesusi multimodālo valodu modeli Ūdri vizuālai izpratnei, pamatojoties uz masveida instrukciju vizuālā teksta datu kopu MIMIC-IT

MIMIC-IT datu kopai ir izšķiroša nozīme Otter modeļa apmācībā, kas ir izstrādāts, lai izprastu vizuālās ainas, argumentāciju un loģiskus secinājumus. Katram norādījumu-atbildes pārim datu kopā ir pievienota multimodāla konteksta informācija, veidojot sarunvalodas kontekstus, kas ļauj modelim izprast uztveres, argumentācijas un plānošanas nianses. Lai paplašinātu anotācijas procesu, Microsoft izmantoja automātisku anotāciju konveijeru ar nosaukumu Syphus, kas apvieno cilvēku zināšanas un iespējas GPT lai nodrošinātu datu kopas kvalitāti un daudzveidību.

Izmantojot MIMIC-IT datu kopu, Microsoft apmācīja Otter modeli — liela mēroga VLM, kuras pamatā ir OpenFlamingo platforma. Veicot plašus redzes valodas etalonu novērtējumus, Otter ir parādījis ievērojamas prasmes multimodālā uztverē, spriešanā un kontekstā mācībās. Cilvēka novērtējumi ir atklājuši tā spēju efektīvi pielāgoties lietotāja nodomiem, padarot to par nenovērtējamu rīku sarežģītu uzdevumu interpretēšanai un izpildei, pamatojoties uz dabiskās valodas instrukcijām.

Otter v0.2 ir paplašinājis savas iespējas, lai atbalstītu video ieejas, ļaujot tai procesa rāmji un vairāki attēli kā konteksta piemēri.

MIMIC-IT datu kopas izlaišana kopā ar instrukciju-atbildes savākšanas konveijeru, etaloniem un Otter modeli ir nozīmīgs pavērsiens multimodālās valodu apstrādes jomā. Padarot šos resursus pieejamus pētniekiem un izstrādātājiem, Microsoft mērķis ir veicināt inovācijas un sadarbību, ļaujot Otter un OpenFlamingo integrēt pielāgotos apmācību un secinājumu cauruļvados, izmantojot populāros Apskāviena seja Transformatoru karkass.

MIMIC-IT datu kopa ietver plašu reālās dzīves scenāriju klāstu, dodot iespēju Vision-Language Model (VLM) izprast vispārīgas ainas, izdomāt kontekstu un saprātīgi atšķirt novērojumus. Tas paver iespējas, piemēram, izstrādāt egocentriskus vizuālo palīgu modeļus, kas var atbildēt uz tādiem jautājumiem kā "Ei, vai jūs domājat, ka es atstāju savas atslēgas uz galda?".

MIMIC-IT neaprobežojas tikai ar angļu valodu. Tā atbalsta arī vairākas valodas, tostarp ķīniešu, korejiešu, japāņu, vācu, franču, spāņu un arābu valodu. Šis daudzvalodu atbalsts ļauj lielākai globālajai auditorijai gūt labumu no MI sniegtajām ērtībām un sasniegumiem.

Lai nodrošinātu augstas kvalitātes norādījumu un atbildes pāru ģenerēšanu, microsoft ir ieviesis Syphus — automatizētu cauruļvadu, kas ietver sistēmas ziņojumus, vizuālas anotācijas un kontekstā ietvertus piemērus kā uzvednes ChatGPT. Tas nodrošina ģenerēto instrukciju un atbildes pāru uzticamību un precizitāti vairākās valodās.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs