„Microsoft“ pristatė multimodalinį kalbos modelį „Otter“, skirtą vizualiniam supratimui, pagrįstą didžiuliu mokomuoju vaizdo teksto duomenų rinkiniu MIMIC-IT
Trumpai
„Otter“ yra vaizdinės kalbos modelis (VLM), sukurtas „OpenFlamingo“ platformoje, skirtas pakeisti vizualinį supratimą ir sąveikauti su vaizdiniu turiniu.
ūdra yra pažangiausias vaizdinės kalbos modelis (VLM), sukurtas remiantis OpenFlamingo platforma, ir ji skirta pagerinti mūsų sąveiką su vaizdiniu turiniu. Vykdydama ambicingą projektą „Otter“, „Microsoft“. įvedė vadinamas didžiulis pamokantis vaizdinio teksto duomenų rinkinys MIMIC-IT. Šiame duomenų rinkinyje yra stulbinantis 2.8 milijono porų susietų daugiarūšių instrukcijų su atsakymais, įskaitant 2.2 milijono unikalių instrukcijų, gautų iš vaizdų ir vaizdo įrašų. Duomenų rinkinys buvo kruopščiai kuruojamas, kad būtų imituojami natūralūs dialogai, apimantys tokius scenarijus kaip vaizdų ir vaizdo įrašų aprašymai, vaizdų palyginimai, atsakymai į klausimus, scenos supratimas ir kt. Šios aukštos kokybės nurodymų ir atsakymų poros buvo sukurtos naudojant galingą ChatGPT-0301 API, reiškianti maždaug 20 XNUMX USD investiciją.
MIMIC-IT duomenų rinkinys atlieka labai svarbų vaidmenį mokant Otter modelį, kuris buvo sukurtas taip, kad puikiai suprastų vaizdines scenas, samprotavimus ir logines išvadas. Kiekvieną duomenų rinkinio nurodymų ir atsakymų porą lydi daugiarūšė kontekstinė informacija, sukurianti pokalbio kontekstus, suteikiančius modeliui galimybę suvokti suvokimo, samprotavimo ir planavimo niuansus. Siekdama išplėsti anotavimo procesą, „Microsoft“ panaudojo automatinį anotacijų vamzdyną, pavadintą „Syphus“, kuris sujungia žmogaus patirtį ir GPT užtikrinti duomenų rinkinio kokybę ir įvairovę.
Naudodama MIMIC-IT duomenų rinkinį, Microsoft parengė Otter modelį – didelio masto VLM, pagrįstą OpenFlamingo platforma. Atlikdamas išsamius vizijos ir kalbos etalonų vertinimus, Otter įrodė puikų daugiarūšio suvokimo, samprotavimo ir mokymosi kontekste įgūdžius. Žmogaus vertinimai atskleidė jo gebėjimą veiksmingai prisitaikyti prie vartotojo ketinimų, todėl tai yra neįkainojamas įrankis aiškinant ir atliekant sudėtingas užduotis, pagrįstas natūralios kalbos instrukcijomis.
Otter v0.2 išplėtė savo galimybes, kad palaikytų vaizdo įvestis, todėl tai leidžia proceso rėmai ir keli vaizdai kaip konteksto pavyzdžiai.
MIMIC-IT duomenų rinkinio išleidimas kartu su instrukcijų ir atsakymų rinkimo vamzdynu, etalonais ir Otter modeliu yra svarbus etapas daugiarūšio kalbų apdorojimo srityje. Suteikdama šiuos išteklius tyrėjams ir kūrėjams, „Microsoft“ siekia skatinti naujoves ir bendradarbiavimą, sudarydama galimybę „Otter“ ir „OpenFlamingo“ integruoti į pritaikytus mokymo ir išvadų vamzdynus, naudojant populiarius Apsikabinęs veidas Transformatorių karkasas.
MIMIC-IT duomenų rinkinys apima platų realaus gyvenimo scenarijų spektrą, suteikiantį galimybę vizijos kalbos modeliams (VLM) suprasti bendras scenas, samprotauti apie kontekstą ir protingai atskirti stebėjimus. Tai atveria galimybes, pavyzdžiui, sukurti egocentriškus vizualinio asistento modelius, kurie gali atsakyti į tokius klausimus kaip: „Ei, ar manai, kad palikau raktus ant stalo?“.
MIMIC-IT neapsiriboja anglų kalba. Jis taip pat palaiko kelias kalbas, įskaitant kinų, korėjiečių, japonų, vokiečių, prancūzų, ispanų ir arabų. Šis daugiakalbis palaikymas leidžia didesnei pasaulinei auditorijai pasinaudoti AI teikiamais patogumais ir pažanga.
Siekiant užtikrinti aukštos kokybės nurodymų ir atsakymų porų generavimą, "Microsoft" pristatė Syphus – automatinį dujotiekį, į kurį įtraukiami sistemos pranešimai, vaizdinės anotacijos ir kontekstiniai pavyzdžiai kaip raginimai ChatGPT. Tai užtikrina generuojamų nurodymų ir atsakymų porų patikimumą ir tikslumą keliomis kalbomis.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.