Yangiliklar hisoboti texnologiya
Iyun 12, 2023

Microsoft MIMIC-IT keng ko'lamli vizual matn ma'lumotlar to'plamiga asoslangan vizual tushunish uchun multimodal til modelini taqdim etdi.

Qisqacha

Otter - bu OpenFlamingo platformasida qurilgan vizual til modeli (VLM), vizual tushunishni inqilob qilish va vizual kontent bilan o'zaro ta'sir qilish uchun mo'ljallangan.

Otter asosida qurilgan zamonaviy vizual til modeli (VLM). OpenFlamingo platformasi va u bizning vizual kontent bilan o'zaro munosabatimizni yaxshilash uchun o'rnatiladi. Shuhratparast Otter loyihasining bir qismi sifatida, Microsoft taqdim etdi deb nomlangan katta ibratli vizual-matnli ma'lumotlar to'plami MIMIC-IT. Ushbu ma'lumotlar to'plami javoblari bilan hayratlanarli 2.8 million juft bog'langan multimodal ko'rsatmalarni o'z ichiga oladi, shu jumladan tasvir va videolardan olingan 2.2 million noyob ko'rsatmalar. Ma'lumotlar to'plami tasvir va video tavsiflari, tasvirlarni taqqoslash, savollarga javob berish, sahnani tushunish va boshqalar kabi stsenariylarni qamrab olgan tabiiy dialoglarni taqlid qilish uchun sinchkovlik bilan tuzilgan. Ushbu yuqori sifatli ko'rsatmalar-javob juftliklari kuchli yordamida yaratilgan ChatGPT-0301 API, taxminan 20 ming dollarlik sarmoyani ifodalaydi.

Microsoft MIMIC-IT keng ko'lamli vizual matn ma'lumotlar to'plamiga asoslangan vizual tushunish uchun multimodal til modelini taqdim etdi.

MIMIC-IT ma'lumotlar to'plami Otter modelini o'rgatishda hal qiluvchi rol o'ynaydi, u vizual sahnalarni, fikrlash va mantiqiy xulosalarni tushunishda ustunlik qilish uchun mo'ljallangan. Ma'lumotlar to'plamidagi har bir ko'rsatma-javob juftligi ko'p modali kontekstdagi ma'lumotlar bilan birga bo'lib, modelga idrok etish, fikrlash va rejalashtirish nuanslarini tushunishga imkon beradigan suhbat kontekstini yaratadi. Annotatsiya jarayonini kengaytirish uchun Microsoft Syphus nomli avtomatik annotatsiya quvuridan foydalangan, u inson tajribasini quyidagi imkoniyatlar bilan birlashtiradi. GPT ma'lumotlar to'plamining sifati va xilma-xilligini ta'minlash.

Microsoft MIMIC-IT keng ko'lamli vizual matn ma'lumotlar to'plamiga asoslangan vizual tushunish uchun multimodal til modelini taqdim etdi.

MIMIC-IT ma'lumotlar to'plamidan foydalanib, Microsoft OpenFlamingo platformasiga asoslangan keng ko'lamli VLM Otter modelini o'rgatdi. Ko'rish-til mezonlari bo'yicha keng qamrovli baholashlar orqali Otter multimodal idrok etish, fikrlash va kontekstda o'rganish bo'yicha ajoyib mahoratni namoyish etdi. Insoniy baholar uning foydalanuvchi niyatlari bilan samarali moslashish qobiliyatini ochib berdi, bu uni tabiiy til ko'rsatmalariga asoslangan murakkab vazifalarni talqin qilish va bajarish uchun bebaho vositaga aylantirdi.

Otter v0.2 video kiritishni qo'llab-quvvatlash uchun o'z imkoniyatlarini kengaytirib, unga ruxsat berdi jarayon ramkalari va kontekstdagi misollar sifatida bir nechta tasvirlar.

MIMIC-IT ma'lumotlar to'plamining chiqarilishi, ko'rsatmalar-javoblarni yig'ish liniyasi, benchmarklar va Otter modeli bilan birga multimodal tilni qayta ishlash sohasida muhim bosqichdir. Ushbu resurslarni tadqiqotchilar va ishlab chiquvchilarga taqdim etish orqali Microsoft innovatsiyalar va hamkorlikni rivojlantirishni maqsad qilgan, bu esa Otter va OpenFlamingo-ni mashhur dasturlardan foydalangan holda moslashtirilgan ta'lim va xulosa chiqarish quvurlariga integratsiyalashuviga imkon beradi. Yuzni quchoqlash Transformatorlar ramkasi.

MIMIC-IT ma'lumotlar to'plami keng ko'lamli real hayot stsenariylarini o'z ichiga oladi, umumiy sahnalarni tushunish, kontekst haqida fikr yuritish va kuzatishlarni aqlli ravishda farqlash uchun Vision-Language Models (VLMs) imkoniyatlarini kengaytiradi. Bu “Hey, men kalitlarimni stolda qoldirgan deb o‘ylaysizmi?” kabi savollarga javob bera oladigan egosentrik vizual yordamchi modellarni ishlab chiqish kabi imkoniyatlarni ochadi.

MIMIC-IT faqat ingliz tili bilan cheklanmaydi. Shuningdek, u xitoy, koreys, yapon, nemis, frantsuz, ispan va arab tillarini o'z ichiga olgan bir nechta tillarni qo'llab-quvvatlaydi. Ushbu ko'p tilli yordam kengroq global auditoriyaga AI tomonidan yaratilgan qulaylik va yutuqlardan foydalanish imkonini beradi.

Yuqori sifatli ko'rsatmalar-javob juftliklarini yaratishni ta'minlash uchun, Microsoft tizim xabarlari, vizual izohlar va kontekstdagi misollarni o'z ichiga olgan Syphus avtomatlashtirilgan quvur liniyasini taqdim etdi. ChatGPT. Bu bir nechta tillarda yaratilgan ko'rsatmalar-javob juftlarining ishonchliligi va aniqligini ta'minlaydi.

AI haqida ko'proq o'qing:

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Boshqa maqolalar
Damir Yalolov
Damir Yalolov

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Hot Stories
Bizning xabarnomamizga qo'shiling.
So'nggi yangiliklar

Ripple'dan Katta Yashil DAOga: Kriptovalyuta loyihalari xayriyaga qanday hissa qo'shadi

Raqamli valyutalarning potentsialidan xayriya maqsadlarida foydalanish tashabbuslarini ko'rib chiqaylik.

Ko'proq ma'lumot oling

AlphaFold 3, Med-Gemini va boshqalar: AI 2024 yilda sog'liqni saqlashni o'zgartiradi.

AI sog'liqni saqlash sohasida turli yo'llar bilan namoyon bo'ladi, yangi genetik korrelyatsiyalarni ochishdan robotli jarrohlik tizimlarini kuchaytirishgacha ...

Ko'proq ma'lumot oling
Innovatsion texnologiyalar hamjamiyatimizga qo'shiling
Ko'proq o'qing
Ko'proq o'qing
Ripple'dan Katta Yashil DAOga: Kriptovalyuta loyihalari xayriyaga qanday hissa qo'shadi
Tahlil Kripto Wiki ish ta'lim Hayot tarzi Birja Dastur texnologiya
Ripple'dan Katta Yashil DAOga: Kriptovalyuta loyihalari xayriyaga qanday hissa qo'shadi
, 13 2024 mumkin
AlphaFold 3, Med-Gemini va boshqalar: AI 2024 yilda sog'liqni saqlashni o'zgartiradi.
AI Wiki Tahlil Digestalar fikr ish Birja Yangiliklar hisoboti Dastur Hikoyalar va sharhlar texnologiya
AlphaFold 3, Med-Gemini va boshqalar: AI 2024 yilda sog'liqni saqlashni o'zgartiradi.
, 13 2024 mumkin
Nim Network AI egalik tokenizatsiyasi tizimini ishlab chiqaradi va may oyiga rejalashtirilgan snapshot sanasi bilan rentabellikni sotadi
Birja Yangiliklar hisoboti texnologiya
Nim Network AI egalik tokenizatsiyasi tizimini ishlab chiqaradi va may oyiga rejalashtirilgan snapshot sanasi bilan rentabellikni sotadi
, 13 2024 mumkin
Binance Argentina bilan kiberjinoyatchilikka qarshi hamkorlik qiladi
fikr ish Birja Yangiliklar hisoboti Dastur texnologiya
Binance Argentina bilan kiberjinoyatchilikka qarshi hamkorlik qiladi
, 13 2024 mumkin
CRYPTOMERIA LABS PTE. LTD.