Мицрософт је представио мултимодални језички модел Оттер за визуелно разумевање засновано на огромном скупу визуелно-текстуалних података МИМИЦ-ИТ
Укратко
Оттер је модел визуелног језика (ВЛМ) изграђен на ОпенФламинго платформи, дизајниран да револуционише визуелно разумевање и интеракцију са визуелним садржајем.
Видра је најсавременији модел визуелног језика (ВЛМ) изграђен на ОпенФламинго платформа, а постављена је да побољша начин на који комуницирамо са визуелним садржајем. У оквиру амбициозног пројекта Оттер, Мицрософт је увео масивни инструктивни визуелно-текстуални скуп података тзв МИМИЦ-ИТ. Овај скуп података садржи запањујућих 2.8 милиона парова повезаних мултимодалних инструкција са одговорима, укључујући 2.2 милиона јединствених инструкција изведених из слика и видео записа. Скуп података је пажљиво куриран да симулира природне дијалоге, покривајући сценарије као што су описи слика и видео записа, поређења слика, одговарање на питања, разумевање сцене и још много тога. Ови висококвалитетни парови инструкција-одзив су генерисани коришћењем моћног ChatGPT-0301 АПИ, што представља инвестицију од приближно 20 хиљада долара.
Скуп података МИМИЦ-ИТ игра кључну улогу у обучавању модела Оттер, који је дизајниран да буде одличан у разумевању визуелних сцена, закључивања и логичких закључака. Сваки пар инструкција-одговор у скупу података је праћен мултимодалним информацијама у контексту, стварајући конверзацијске контексте који оснажују модел да схвати нијансе перцепције, закључивања и планирања. Да би повећао процес означавања, Мицрософт је користио аутоматску цевовод за напомене под називом Сипхус, која комбинује људску стручност са могућностима GPT да би се обезбедио квалитет и разноврсност скупа података.
Користећи МИМИЦ-ИТ скуп података, Мицрософт је обучио Оттер модел, ВЛМ великог обима заснованог на ОпенФламинго платформи. Кроз опсежне евалуације мерила за визију и језик, Оттер је показао изузетну стручност у мултимодалној перцепцији, закључивању и учењу у контексту. Људске процене су откриле његову способност да се ефикасно усклади са намерама корисника, што га чини непроцењивим алатом за тумачење и извршавање сложених задатака заснованих на упутствима природног језика.
Оттер в0.2 је проширио своје могућности да подржи видео улазе, што му је омогућило процесни оквири и више слика као примери у контексту.
Издавање МИМИЦ-ИТ скупа података, заједно са цевоводом за прикупљање инструкција-одговора, бенчмарковима и моделом Оттер, представља значајну прекретницу у области мултимодалне обраде језика. Стављајући ове ресурсе на располагање истраживачима и програмерима, Мицрософт има за циљ да подстакне иновације и сарадњу, омогућавајући интеграцију Оттер-а и ОпенФламинго-а у прилагођене цевоводе за обуку и закључивање користећи популарне Загрљено лице Оквир трансформатора.
Скуп података МИМИЦ-ИТ обухвата широк спектар сценарија из стварног живота, оснажујући моделе визуелног језика (ВЛМ) да схвате опште сцене, размишљају о контексту и интелигентно разликују посматрања. Ово отвара могућности, као што је развој егоцентричних модела визуелних помоћника који могу да одговоре на питања попут: „Хеј, да ли мислиш да сам оставио кључеве на столу?“.
МИМИЦ-ИТ није ограничен на енглески језик. Такође подржава више језика, укључујући кинески, корејски, јапански, немачки, француски, шпански и арапски. Ова вишејезична подршка омогућава широј глобалној публици да има користи од погодности и напретка које доноси АИ.
Да би се обезбедило стварање висококвалитетних парова инструкција-одговор, Microsoft је представио Сипхус, аутоматизовани цевовод који укључује системске поруке, визуелне напомене и примере у контексту као упутства за ChatGPT. Ово осигурава поузданост и тачност генерисаних парова инструкција-одговор на више језика.
Прочитајте више о АИ:
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.