Raport aktualności Technologia
12 czerwca 2023 r.

Firma Microsoft wprowadziła multimodalny model językowy Otter do rozumienia wizualnego w oparciu o ogromny instruktażowy zestaw danych wizualno-tekstowych MIMIC-IT

W skrócie

Otter to model języka wizualnego (VLM) zbudowany na platformie OpenFlamingo, zaprojektowany w celu zrewolucjonizowania wizualnego rozumienia i interakcji z treściami wizualnymi.

Wydra to najnowocześniejszy model języka wizualnego (VLM) zbudowany na Otwórz Flamingo platformę i ma poprawić sposób, w jaki wchodzimy w interakcje z treściami wizualnymi. W ramach ambitnego projektu Otter Microsoft wprowadził ogromny pouczający zestaw danych wizualno-tekstowych o nazwie MIMIC-IT. Ten zestaw danych zawiera oszałamiającą liczbę 2.8 miliona par połączonych instrukcji multimodalnych z odpowiedziami, w tym 2.2 miliona unikalnych instrukcji pochodzących z obrazów i filmów. Zbiór danych został skrupulatnie dobrany, aby symulować naturalne dialogi, obejmujące scenariusze, takie jak opisy obrazów i filmów, porównania obrazów, odpowiadanie na pytania, rozumienie scen i inne. Te wysokiej jakości pary instrukcja-odpowiedź zostały wygenerowane przy użyciu potężnego narzędzia ChatGPT-0301 API, co stanowi inwestycję o wartości około 20 XNUMX USD.

Firma Microsoft wprowadziła multimodalny model językowy Otter do rozumienia wizualnego w oparciu o ogromny instruktażowy zestaw danych wizualno-tekstowych MIMIC-IT

Zestaw danych MIMIC-IT odgrywa kluczową rolę w szkoleniu modelu Ottera, który został zaprojektowany tak, aby wyróżniał się w zrozumieniu scen wizualnych, rozumowaniu i logicznych wnioskach. Każdej parze instrukcja-odpowiedź w zbiorze danych towarzyszą wielomodalne informacje w kontekście, tworzące konteksty konwersacyjne, które umożliwiają modelowi uchwycenie niuansów percepcji, rozumowania i planowania. Aby skalować proces dodawania adnotacji, firma Microsoft zastosowała automatyczny potok adnotacji o nazwie Syphus, który łączy w sobie fachową wiedzę ludzi z możliwościami GPT w celu zapewnienia jakości i różnorodności zbioru danych.

Firma Microsoft wprowadziła multimodalny model językowy Otter do rozumienia wizualnego w oparciu o ogromny instruktażowy zestaw danych wizualno-tekstowych MIMIC-IT

Korzystając ze zbioru danych MIMIC-IT, firma Microsoft wytrenowała model Ottera, wielkoskalowy VLM oparty na platformie OpenFlamingo. Dzięki szeroko zakrojonym ocenom testów porównawczych wzrokowo-językowych Otter wykazał się niezwykłą biegłością w percepcji multimodalnej, rozumowaniu i uczeniu się w kontekście. Oceny dokonane przez ludzi wykazały jego zdolność do skutecznego dostosowywania się do intencji użytkownika, co czyni go nieocenionym narzędziem do interpretacji i wykonywania złożonych zadań w oparciu o instrukcje w języku naturalnym.

Otter v0.2 rozszerzył swoje możliwości o obsługę wejść wideo, umożliwiając to ramy procesowe i wiele obrazów jako przykłady w kontekście.

Udostępnienie zestawu danych MIMIC-IT wraz z potokiem zbierania instrukcji-odpowiedzi, testami porównawczymi i modelem Ottera stanowi ważny kamień milowy w dziedzinie multimodalnego przetwarzania języka. Udostępniając te zasoby naukowcom i programistom, Microsoft ma na celu wspieranie innowacji i współpracy, umożliwiając integrację Otter i OpenFlamingo z niestandardowymi procesami szkoleniowymi i wnioskowaniem przy użyciu popularnego Przytulanie Twarzy Ramy transformatorów.

Zestaw danych MIMIC-IT obejmuje szeroki zakres scenariuszy z życia wziętych, umożliwiając modelom wizjonersko-językowym (VLM) zrozumienie ogólnych scen, wnioskowanie o kontekście i inteligentne rozróżnianie obserwacji. Otwiera to możliwości, takie jak rozwój egocentrycznych modeli asystentów wizualnych, które mogą odpowiadać na pytania typu: „Hej, czy myślisz, że zostawiłem klucze na stole?”.

MIMIC-IT nie ogranicza się do języka angielskiego. Obsługuje również wiele języków, w tym chiński, koreański, japoński, niemiecki, francuski, hiszpański i arabski. Ta wielojęzyczna obsługa umożliwia większej globalnej publiczności korzystanie z wygody i postępów, jakie zapewnia sztuczna inteligencja.

Aby zapewnić generowanie wysokiej jakości par instrukcja-odpowiedź, Microsoft wprowadził Syphus, zautomatyzowany potok, który zawiera komunikaty systemowe, adnotacje wizualne i przykłady w kontekście jako monity ChatGPT. Zapewnia to niezawodność i dokładność generowanych par instrukcja-odpowiedź w wielu językach.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Hot Stories
Dołącz do naszego newslettera.
Najnowsze wieści

Od Ripple do Big Green DAO: jak projekty kryptowalutowe przyczyniają się do działalności charytatywnej

Przyjrzyjmy się inicjatywom wykorzystującym potencjał walut cyfrowych na cele charytatywne.

Dowiedz się więcej

AlphaFold 3, Med-Gemini i inne: sposób, w jaki sztuczna inteligencja zmieni opiekę zdrowotną w 2024 r.

Sztuczna inteligencja objawia się na różne sposoby w opiece zdrowotnej, od odkrywania nowych korelacji genetycznych po wzmacnianie zrobotyzowanych systemów chirurgicznych…

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
10 najlepszych bezpłatnych narzędzi AI do tworzenia treści, edycji wideo i nie tylko
AI Wiki Digest Edukacja Styl życia Tworzenie Technologia
10 najlepszych bezpłatnych narzędzi AI do tworzenia treści, edycji wideo i nie tylko
14 maja 2024 r.
Komisja Papierów Wartościowych Hongkongu ostrzega przed fałszywymi oszustwami wymierzonymi w branżę kryptograficzną: konsekwencje dla bezpieczeństwa inwestorów
Styl życia Bezpieczeństwo Wiki Tworzenie Historie i recenzje Technologia
Komisja Papierów Wartościowych Hongkongu ostrzega przed fałszywymi oszustwami wymierzonymi w branżę kryptograficzną: konsekwencje dla bezpieczeństwa inwestorów
14 maja 2024 r.
Ripple i Evmos współpracują nad opracowaniem łańcucha bocznego XRP Ledger EVM z technologią EvmOS
Biznes Raport aktualności Technologia
Ripple i Evmos współpracują nad opracowaniem łańcucha bocznego XRP Ledger EVM z technologią EvmOS
14 maja 2024 r.
5ireChain inicjuje program motywacyjny „Testnet Thunder: GA” do testowania obciążenia sieci i zaprasza użytkowników do udziału Airdrop Nagrody
Raport aktualności Technologia
5ireChain inicjuje program motywacyjny „Testnet Thunder: GA” do testowania obciążenia sieci i zaprasza użytkowników do udziału Airdrop Nagrody
14 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.