Firma Microsoft wprowadziła multimodalny model językowy Otter do rozumienia wizualnego w oparciu o ogromny instruktażowy zestaw danych wizualno-tekstowych MIMIC-IT
W skrócie
Otter to model języka wizualnego (VLM) zbudowany na platformie OpenFlamingo, zaprojektowany w celu zrewolucjonizowania wizualnego rozumienia i interakcji z treściami wizualnymi.
Wydra to najnowocześniejszy model języka wizualnego (VLM) zbudowany na Otwórz Flamingo platformę i ma poprawić sposób, w jaki wchodzimy w interakcje z treściami wizualnymi. W ramach ambitnego projektu Otter Microsoft wprowadził ogromny pouczający zestaw danych wizualno-tekstowych o nazwie MIMIC-IT. Ten zestaw danych zawiera oszałamiającą liczbę 2.8 miliona par połączonych instrukcji multimodalnych z odpowiedziami, w tym 2.2 miliona unikalnych instrukcji pochodzących z obrazów i filmów. Zbiór danych został skrupulatnie dobrany, aby symulować naturalne dialogi, obejmujące scenariusze, takie jak opisy obrazów i filmów, porównania obrazów, odpowiadanie na pytania, rozumienie scen i inne. Te wysokiej jakości pary instrukcja-odpowiedź zostały wygenerowane przy użyciu potężnego narzędzia ChatGPT-0301 API, co stanowi inwestycję o wartości około 20 XNUMX USD.
Zestaw danych MIMIC-IT odgrywa kluczową rolę w szkoleniu modelu Ottera, który został zaprojektowany tak, aby wyróżniał się w zrozumieniu scen wizualnych, rozumowaniu i logicznych wnioskach. Każdej parze instrukcja-odpowiedź w zbiorze danych towarzyszą wielomodalne informacje w kontekście, tworzące konteksty konwersacyjne, które umożliwiają modelowi uchwycenie niuansów percepcji, rozumowania i planowania. Aby skalować proces dodawania adnotacji, firma Microsoft zastosowała automatyczny potok adnotacji o nazwie Syphus, który łączy w sobie fachową wiedzę ludzi z możliwościami GPT w celu zapewnienia jakości i różnorodności zbioru danych.
Korzystając ze zbioru danych MIMIC-IT, firma Microsoft wytrenowała model Ottera, wielkoskalowy VLM oparty na platformie OpenFlamingo. Dzięki szeroko zakrojonym ocenom testów porównawczych wzrokowo-językowych Otter wykazał się niezwykłą biegłością w percepcji multimodalnej, rozumowaniu i uczeniu się w kontekście. Oceny dokonane przez ludzi wykazały jego zdolność do skutecznego dostosowywania się do intencji użytkownika, co czyni go nieocenionym narzędziem do interpretacji i wykonywania złożonych zadań w oparciu o instrukcje w języku naturalnym.
Otter v0.2 rozszerzył swoje możliwości o obsługę wejść wideo, umożliwiając to ramy procesowe i wiele obrazów jako przykłady w kontekście.
Udostępnienie zestawu danych MIMIC-IT wraz z potokiem zbierania instrukcji-odpowiedzi, testami porównawczymi i modelem Ottera stanowi ważny kamień milowy w dziedzinie multimodalnego przetwarzania języka. Udostępniając te zasoby naukowcom i programistom, Microsoft ma na celu wspieranie innowacji i współpracy, umożliwiając integrację Otter i OpenFlamingo z niestandardowymi procesami szkoleniowymi i wnioskowaniem przy użyciu popularnego Przytulanie Twarzy Ramy transformatorów.
Zestaw danych MIMIC-IT obejmuje szeroki zakres scenariuszy z życia wziętych, umożliwiając modelom wizjonersko-językowym (VLM) zrozumienie ogólnych scen, wnioskowanie o kontekście i inteligentne rozróżnianie obserwacji. Otwiera to możliwości, takie jak rozwój egocentrycznych modeli asystentów wizualnych, które mogą odpowiadać na pytania typu: „Hej, czy myślisz, że zostawiłem klucze na stole?”.
MIMIC-IT nie ogranicza się do języka angielskiego. Obsługuje również wiele języków, w tym chiński, koreański, japoński, niemiecki, francuski, hiszpański i arabski. Ta wielojęzyczna obsługa umożliwia większej globalnej publiczności korzystanie z wygody i postępów, jakie zapewnia sztuczna inteligencja.
Aby zapewnić generowanie wysokiej jakości par instrukcja-odpowiedź, Microsoft wprowadził Syphus, zautomatyzowany potok, który zawiera komunikaty systemowe, adnotacje wizualne i przykłady w kontekście jako monity ChatGPT. Zapewnia to niezawodność i dokładność generowanych par instrukcja-odpowiedź w wielu językach.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.