Новински извештај технологија
Јун 12, 2023

Мицрософт је представио мултимодални језички модел Оттер за визуелно разумевање засновано на огромном скупу визуелно-текстуалних података МИМИЦ-ИТ

Укратко

Оттер је модел визуелног језика (ВЛМ) изграђен на ОпенФламинго платформи, дизајниран да револуционише визуелно разумевање и интеракцију са визуелним садржајем.

Видра је најсавременији модел визуелног језика (ВЛМ) изграђен на ОпенФламинго платформа, а постављена је да побољша начин на који комуницирамо са визуелним садржајем. У оквиру амбициозног пројекта Оттер, Мицрософт је увео масивни инструктивни визуелно-текстуални скуп података тзв МИМИЦ-ИТ. Овај скуп података садржи запањујућих 2.8 милиона парова повезаних мултимодалних инструкција са одговорима, укључујући 2.2 милиона јединствених инструкција изведених из слика и видео записа. Скуп података је пажљиво куриран да симулира природне дијалоге, покривајући сценарије као што су описи слика и видео записа, поређења слика, одговарање на питања, разумевање сцене и још много тога. Ови висококвалитетни парови инструкција-одзив су генерисани коришћењем моћног ChatGPT-0301 АПИ, што представља инвестицију од приближно 20 хиљада долара.

Мицрософт је представио мултимодални језички модел Оттер за визуелно разумевање засновано на огромном скупу визуелно-текстуалних података МИМИЦ-ИТ

Скуп података МИМИЦ-ИТ игра кључну улогу у обучавању модела Оттер, који је дизајниран да буде одличан у разумевању визуелних сцена, закључивања и логичких закључака. Сваки пар инструкција-одговор у скупу података је праћен мултимодалним информацијама у контексту, стварајући конверзацијске контексте који оснажују модел да схвати нијансе перцепције, закључивања и планирања. Да би повећао процес означавања, Мицрософт је користио аутоматску цевовод за напомене под називом Сипхус, која комбинује људску стручност са могућностима GPT да би се обезбедио квалитет и разноврсност скупа података.

Мицрософт је представио мултимодални језички модел Оттер за визуелно разумевање засновано на огромном скупу визуелно-текстуалних података МИМИЦ-ИТ

Користећи МИМИЦ-ИТ скуп података, Мицрософт је обучио Оттер модел, ВЛМ великог обима заснованог на ОпенФламинго платформи. Кроз опсежне евалуације мерила за визију и језик, Оттер је показао изузетну стручност у мултимодалној перцепцији, закључивању и учењу у контексту. Људске процене су откриле његову способност да се ефикасно усклади са намерама корисника, што га чини непроцењивим алатом за тумачење и извршавање сложених задатака заснованих на упутствима природног језика.

Оттер в0.2 је проширио своје могућности да подржи видео улазе, што му је омогућило процесни оквири и више слика као примери у контексту.

Издавање МИМИЦ-ИТ скупа података, заједно са цевоводом за прикупљање инструкција-одговора, бенчмарковима и моделом Оттер, представља значајну прекретницу у области мултимодалне обраде језика. Стављајући ове ресурсе на располагање истраживачима и програмерима, Мицрософт има за циљ да подстакне иновације и сарадњу, омогућавајући интеграцију Оттер-а и ОпенФламинго-а у прилагођене цевоводе за обуку и закључивање користећи популарне Загрљено лице Оквир трансформатора.

Скуп података МИМИЦ-ИТ обухвата широк спектар сценарија из стварног живота, оснажујући моделе визуелног језика (ВЛМ) да схвате опште сцене, размишљају о контексту и интелигентно разликују посматрања. Ово отвара могућности, као што је развој егоцентричних модела визуелних помоћника који могу да одговоре на питања попут: „Хеј, да ли мислиш да сам оставио кључеве на столу?“.

МИМИЦ-ИТ није ограничен на енглески језик. Такође подржава више језика, укључујући кинески, корејски, јапански, немачки, француски, шпански и арапски. Ова вишејезична подршка омогућава широј глобалној публици да има користи од погодности и напретка које доноси АИ.

Да би се обезбедило стварање висококвалитетних парова инструкција-одговор, Microsoft је представио Сипхус, аутоматизовани цевовод који укључује системске поруке, визуелне напомене и примере у контексту као упутства за ChatGPT. Ово осигурава поузданост и тачност генерисаних парова инструкција-одговор на више језика.

Прочитајте више о АИ:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Од Рипплеа до Тхе Биг Греен ДАО: Како пројекти криптовалуте доприносе добротворним акцијама

Хајде да истражимо иницијативе које искориштавају потенцијал дигиталних валута за добротворне сврхе.

Знате више

АлпхаФолд 3, Мед-Близанци и други: начин на који АИ трансформише здравствену заштиту 2024.

АИ се манифестује на различите начине у здравству, од откривања нових генетских корелација до оснаживања роботских хируршких система...

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
10 најбољих бесплатних АИ алата за креирање садржаја, уређивање видео записа и још много тога
AI Wiki Дигест Образовање Lifestyle софтвер технологија
10 најбољих бесплатних АИ алата за креирање садржаја, уређивање видео записа и још много тога
Може 14, 2024
Комисија за хартије од вредности Хонг Конга упозорава на дубоке лажне преваре усмерене на крипто индустрију: импликације на безбедност инвеститора
Lifestyle безбедност Wiki софтвер Приче и критике технологија
Комисија за хартије од вредности Хонг Конга упозорава на дубоке лажне преваре усмерене на крипто индустрију: импликације на безбедност инвеститора
Може 14, 2024
Риппле и Евмос сарађују на развоју КСРП Ледгер ЕВМ Сидецхаин-а са ЕвмОС технологијом
Posao Новински извештај технологија
Риппле и Евмос сарађују на развоју КСРП Ледгер ЕВМ Сидецхаин-а са ЕвмОС технологијом
Може 14, 2024
5иреЦхаин покреће подстакнути 'Тестнет Тхундер: ГА' за мрежно стресно тестирање, позива кориснике да учествују Airdrop Награде
Новински извештај технологија
5иреЦхаин покреће подстакнути 'Тестнет Тхундер: ГА' за мрежно стресно тестирање, позива кориснике да учествују Airdrop Награде
Може 14, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.