Naujienų ataskaita Technologija
Birželio 12, 2023

„Microsoft“ pristatė multimodalinį kalbos modelį „Otter“, skirtą vizualiniam supratimui, pagrįstą didžiuliu mokomuoju vaizdo teksto duomenų rinkiniu MIMIC-IT

Trumpai

„Otter“ yra vaizdinės kalbos modelis (VLM), sukurtas „OpenFlamingo“ platformoje, skirtas pakeisti vizualinį supratimą ir sąveikauti su vaizdiniu turiniu.

ūdra yra pažangiausias vaizdinės kalbos modelis (VLM), sukurtas remiantis OpenFlamingo platforma, ir ji skirta pagerinti mūsų sąveiką su vaizdiniu turiniu. Vykdydama ambicingą projektą „Otter“, „Microsoft“. įvedė vadinamas didžiulis pamokantis vaizdinio teksto duomenų rinkinys MIMIC-IT. Šiame duomenų rinkinyje yra stulbinantis 2.8 milijono porų susietų daugiarūšių instrukcijų su atsakymais, įskaitant 2.2 milijono unikalių instrukcijų, gautų iš vaizdų ir vaizdo įrašų. Duomenų rinkinys buvo kruopščiai kuruojamas, kad būtų imituojami natūralūs dialogai, apimantys tokius scenarijus kaip vaizdų ir vaizdo įrašų aprašymai, vaizdų palyginimai, atsakymai į klausimus, scenos supratimas ir kt. Šios aukštos kokybės nurodymų ir atsakymų poros buvo sukurtos naudojant galingą ChatGPT-0301 API, reiškianti maždaug 20 XNUMX USD investiciją.

„Microsoft“ pristatė multimodalinį kalbos modelį „Otter“, skirtą vizualiniam supratimui, pagrįstą didžiuliu mokomuoju vaizdo teksto duomenų rinkiniu MIMIC-IT

MIMIC-IT duomenų rinkinys atlieka labai svarbų vaidmenį mokant Otter modelį, kuris buvo sukurtas taip, kad puikiai suprastų vaizdines scenas, samprotavimus ir logines išvadas. Kiekvieną duomenų rinkinio nurodymų ir atsakymų porą lydi daugiarūšė kontekstinė informacija, sukurianti pokalbio kontekstus, suteikiančius modeliui galimybę suvokti suvokimo, samprotavimo ir planavimo niuansus. Siekdama išplėsti anotavimo procesą, „Microsoft“ panaudojo automatinį anotacijų vamzdyną, pavadintą „Syphus“, kuris sujungia žmogaus patirtį ir GPT užtikrinti duomenų rinkinio kokybę ir įvairovę.

„Microsoft“ pristatė multimodalinį kalbos modelį „Otter“, skirtą vizualiniam supratimui, pagrįstą didžiuliu mokomuoju vaizdo teksto duomenų rinkiniu MIMIC-IT

Naudodama MIMIC-IT duomenų rinkinį, Microsoft parengė Otter modelį – didelio masto VLM, pagrįstą OpenFlamingo platforma. Atlikdamas išsamius vizijos ir kalbos etalonų vertinimus, Otter įrodė puikų daugiarūšio suvokimo, samprotavimo ir mokymosi kontekste įgūdžius. Žmogaus vertinimai atskleidė jo gebėjimą veiksmingai prisitaikyti prie vartotojo ketinimų, todėl tai yra neįkainojamas įrankis aiškinant ir atliekant sudėtingas užduotis, pagrįstas natūralios kalbos instrukcijomis.

Otter v0.2 išplėtė savo galimybes, kad palaikytų vaizdo įvestis, todėl tai leidžia proceso rėmai ir keli vaizdai kaip konteksto pavyzdžiai.

MIMIC-IT duomenų rinkinio išleidimas kartu su instrukcijų ir atsakymų rinkimo vamzdynu, etalonais ir Otter modeliu yra svarbus etapas daugiarūšio kalbų apdorojimo srityje. Suteikdama šiuos išteklius tyrėjams ir kūrėjams, „Microsoft“ siekia skatinti naujoves ir bendradarbiavimą, sudarydama galimybę „Otter“ ir „OpenFlamingo“ integruoti į pritaikytus mokymo ir išvadų vamzdynus, naudojant populiarius Apsikabinęs veidas Transformatorių karkasas.

MIMIC-IT duomenų rinkinys apima platų realaus gyvenimo scenarijų spektrą, suteikiantį galimybę vizijos kalbos modeliams (VLM) suprasti bendras scenas, samprotauti apie kontekstą ir protingai atskirti stebėjimus. Tai atveria galimybes, pavyzdžiui, sukurti egocentriškus vizualinio asistento modelius, kurie gali atsakyti į tokius klausimus kaip: „Ei, ar manai, kad palikau raktus ant stalo?“.

MIMIC-IT neapsiriboja anglų kalba. Jis taip pat palaiko kelias kalbas, įskaitant kinų, korėjiečių, japonų, vokiečių, prancūzų, ispanų ir arabų. Šis daugiakalbis palaikymas leidžia didesnei pasaulinei auditorijai pasinaudoti AI teikiamais patogumais ir pažanga.

Siekiant užtikrinti aukštos kokybės nurodymų ir atsakymų porų generavimą, "Microsoft" pristatė Syphus – automatinį dujotiekį, į kurį įtraukiami sistemos pranešimai, vaizdinės anotacijos ir kontekstiniai pavyzdžiai kaip raginimai ChatGPT. Tai užtikrina generuojamų nurodymų ir atsakymų porų patikimumą ir tikslumą keliomis kalbomis.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Nuo Ripple iki Big Green DAO: kaip kriptovaliutų projektai prisideda prie labdaros

Išnagrinėkime iniciatyvas, kurios panaudoja skaitmeninių valiutų potencialą labdaros tikslais.

Žinoti daugiau

„AlphaFold 3“, „Med-Gemini“ ir kiti: „The Way AI Transforms Healthcare 2024“

DI pasireiškia įvairiais būdais sveikatos priežiūros srityje: nuo naujų genetinių koreliacijų atskleidimo iki robotų chirurginių sistemų įgalinimo...

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
10 geriausių nemokamų AI įrankių, skirtų turinio kūrimui, vaizdo įrašų redagavimui ir kt
AI Wiki Virškinimas Išsilavinimas Gyvenimo būdas programinė įranga Technologija
10 geriausių nemokamų AI įrankių, skirtų turinio kūrimui, vaizdo įrašų redagavimui ir kt
Gali 14, 2024
Honkongo vertybinių popierių komisija perspėja apie netikrus sukčiavimus, nukreiptus į kriptovaliutų pramonę: pasekmės investuotojų saugumui
Gyvenimo būdas saugumas Wiki programinė įranga Istorijos ir apžvalgos Technologija
Honkongo vertybinių popierių komisija perspėja apie netikrus sukčiavimus, nukreiptus į kriptovaliutų pramonę: pasekmės investuotojų saugumui
Gali 14, 2024
Ripple ir Evmos bendradarbiauja kurdami XRP Ledger EVM šoninę grandinę su EvmOS technologija
Atsakingas verslas Naujienų ataskaita Technologija
Ripple ir Evmos bendradarbiauja kurdami XRP Ledger EVM šoninę grandinę su EvmOS technologija
Gali 14, 2024
„5ireChain“ inicijuoja skatinamą „Testnet Thunder: GA“ tinklo nepalankiausio poveikio testavimui, kviečia vartotojus dalyvauti Airdrop Apdovanojimai
Naujienų ataskaita Technologija
„5ireChain“ inicijuoja skatinamą „Testnet Thunder: GA“ tinklo nepalankiausio poveikio testavimui, kviečia vartotojus dalyvauti Airdrop Apdovanojimai
Gali 14, 2024
CRYPTOMERIA LABS PTE. LTD.