Microsoft MIMIC-IT keng ko'lamli vizual matn ma'lumotlar to'plamiga asoslangan vizual tushunish uchun multimodal til modelini taqdim etdi.
Qisqacha
Otter - bu OpenFlamingo platformasida qurilgan vizual til modeli (VLM), vizual tushunishni inqilob qilish va vizual kontent bilan o'zaro ta'sir qilish uchun mo'ljallangan.
Otter asosida qurilgan zamonaviy vizual til modeli (VLM). OpenFlamingo platformasi va u bizning vizual kontent bilan o'zaro munosabatimizni yaxshilash uchun o'rnatiladi. Shuhratparast Otter loyihasining bir qismi sifatida, Microsoft taqdim etdi deb nomlangan katta ibratli vizual-matnli ma'lumotlar to'plami MIMIC-IT. Ushbu ma'lumotlar to'plami javoblari bilan hayratlanarli 2.8 million juft bog'langan multimodal ko'rsatmalarni o'z ichiga oladi, shu jumladan tasvir va videolardan olingan 2.2 million noyob ko'rsatmalar. Ma'lumotlar to'plami tasvir va video tavsiflari, tasvirlarni taqqoslash, savollarga javob berish, sahnani tushunish va boshqalar kabi stsenariylarni qamrab olgan tabiiy dialoglarni taqlid qilish uchun sinchkovlik bilan tuzilgan. Ushbu yuqori sifatli ko'rsatmalar-javob juftliklari kuchli yordamida yaratilgan ChatGPT-0301 API, taxminan 20 ming dollarlik sarmoyani ifodalaydi.
MIMIC-IT ma'lumotlar to'plami Otter modelini o'rgatishda hal qiluvchi rol o'ynaydi, u vizual sahnalarni, fikrlash va mantiqiy xulosalarni tushunishda ustunlik qilish uchun mo'ljallangan. Ma'lumotlar to'plamidagi har bir ko'rsatma-javob juftligi ko'p modali kontekstdagi ma'lumotlar bilan birga bo'lib, modelga idrok etish, fikrlash va rejalashtirish nuanslarini tushunishga imkon beradigan suhbat kontekstini yaratadi. Annotatsiya jarayonini kengaytirish uchun Microsoft Syphus nomli avtomatik annotatsiya quvuridan foydalangan, u inson tajribasini quyidagi imkoniyatlar bilan birlashtiradi. GPT ma'lumotlar to'plamining sifati va xilma-xilligini ta'minlash.
MIMIC-IT ma'lumotlar to'plamidan foydalanib, Microsoft OpenFlamingo platformasiga asoslangan keng ko'lamli VLM Otter modelini o'rgatdi. Ko'rish-til mezonlari bo'yicha keng qamrovli baholashlar orqali Otter multimodal idrok etish, fikrlash va kontekstda o'rganish bo'yicha ajoyib mahoratni namoyish etdi. Insoniy baholar uning foydalanuvchi niyatlari bilan samarali moslashish qobiliyatini ochib berdi, bu uni tabiiy til ko'rsatmalariga asoslangan murakkab vazifalarni talqin qilish va bajarish uchun bebaho vositaga aylantirdi.
Otter v0.2 video kiritishni qo'llab-quvvatlash uchun o'z imkoniyatlarini kengaytirib, unga ruxsat berdi jarayon ramkalari va kontekstdagi misollar sifatida bir nechta tasvirlar.
MIMIC-IT ma'lumotlar to'plamining chiqarilishi, ko'rsatmalar-javoblarni yig'ish liniyasi, benchmarklar va Otter modeli bilan birga multimodal tilni qayta ishlash sohasida muhim bosqichdir. Ushbu resurslarni tadqiqotchilar va ishlab chiquvchilarga taqdim etish orqali Microsoft innovatsiyalar va hamkorlikni rivojlantirishni maqsad qilgan, bu esa Otter va OpenFlamingo-ni mashhur dasturlardan foydalangan holda moslashtirilgan ta'lim va xulosa chiqarish quvurlariga integratsiyalashuviga imkon beradi. Yuzni quchoqlash Transformatorlar ramkasi.
MIMIC-IT ma'lumotlar to'plami keng ko'lamli real hayot stsenariylarini o'z ichiga oladi, umumiy sahnalarni tushunish, kontekst haqida fikr yuritish va kuzatishlarni aqlli ravishda farqlash uchun Vision-Language Models (VLMs) imkoniyatlarini kengaytiradi. Bu “Hey, men kalitlarimni stolda qoldirgan deb o‘ylaysizmi?” kabi savollarga javob bera oladigan egosentrik vizual yordamchi modellarni ishlab chiqish kabi imkoniyatlarni ochadi.
MIMIC-IT faqat ingliz tili bilan cheklanmaydi. Shuningdek, u xitoy, koreys, yapon, nemis, frantsuz, ispan va arab tillarini o'z ichiga olgan bir nechta tillarni qo'llab-quvvatlaydi. Ushbu ko'p tilli yordam kengroq global auditoriyaga AI tomonidan yaratilgan qulaylik va yutuqlardan foydalanish imkonini beradi.
Yuqori sifatli ko'rsatmalar-javob juftliklarini yaratishni ta'minlash uchun, Microsoft tizim xabarlari, vizual izohlar va kontekstdagi misollarni o'z ichiga olgan Syphus avtomatlashtirilgan quvur liniyasini taqdim etdi. ChatGPT. Bu bir nechta tillarda yaratilgan ko'rsatmalar-javob juftlarining ishonchliligi va aniqligini ta'minlaydi.
AI haqida ko'proq o'qing:
Masʼuliyatdan voz kechish
Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.
Muallif haqida
Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.
Boshqa maqolalarDamir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.