Новостной репортаж Технологии
12 июня 2023

Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

Коротко

Otter — это визуальная языковая модель (VLM), построенная на платформе OpenFlamingo и призванная революционизировать визуальное понимание и взаимодействие с визуальным контентом.

Выдра — это передовая модель визуального языка (VLM), построенная на OpenFlamingo платформу, и она предназначена для улучшения нашего взаимодействия с визуальным контентом. В рамках амбициозного проекта Otter Microsoft ввел массивный поучительный набор визуально-текстовых данных под названием МИМИК-ИТ. Этот набор данных содержит ошеломляющие 2.8 миллиона пар связанных мультимодальных инструкций с ответами, в том числе 2.2 миллиона уникальных инструкций, полученных из изображений и видео. Набор данных был тщательно отобран для имитации естественных диалогов, охватывающих такие сценарии, как описание изображений и видео, сравнение изображений, ответы на вопросы, понимание сцены и многое другое. Эти высококачественные пары инструкция-ответ были сгенерированы с использованием мощного ChatGPT-0301 API, что представляет собой инвестиции в размере около 20 тысяч долларов.

Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

Набор данных MIMIC-IT играет решающую роль в обучении модели Otter, которая была разработана, чтобы преуспеть в понимании визуальных сцен, рассуждений и логических выводов. Каждая пара инструкция-ответ в наборе данных сопровождается мультимодальной контекстной информацией, создавая диалоговые контексты, которые позволяют модели понять нюансы восприятия, рассуждений и планирования. Чтобы масштабировать процесс аннотирования, Microsoft использовала автоматический конвейер аннотирования под названием Syphus, который сочетает в себе человеческий опыт и возможности GPT для обеспечения качества и разнообразия набора данных.

Microsoft представила мультимодальную языковую модель Otter для визуального понимания, основанную на массивном учебном наборе данных визуального текста MIMIC-IT

Используя набор данных MIMIC-IT, Microsoft обучила модель Otter, крупномасштабную VLM на основе платформы OpenFlamingo. Благодаря обширным оценкам эталонных показателей языка зрения Оттер продемонстрировал замечательные навыки в мультимодальном восприятии, рассуждении и обучении в контексте. Человеческие оценки показали его способность эффективно согласовываться с намерениями пользователя, что делает его бесценным инструментом для интерпретации и выполнения сложных задач на основе инструкций на естественном языке.

Otter v0.2 расширил свои возможности для поддержки видеовходов, что позволяет кадры процесса и несколько изображений в качестве контекстных примеров.

Выпуск набора данных MIMIC-IT вместе с конвейером сбора инструкций и ответов, тестами и моделью Otter представляет собой важную веху в области мультимодальной языковой обработки. Предоставляя эти ресурсы исследователям и разработчикам, Microsoft стремится способствовать инновациям и сотрудничеству, позволяя интегрировать Otter и OpenFlamingo в настраиваемые конвейеры обучения и логических выводов с использованием популярных Обнимая лицо Каркас трансформеров.

Набор данных MIMIC-IT охватывает широкий спектр сценариев реальной жизни, позволяя моделям Vision-Language Models (VLM) понимать общие сцены, рассуждать о контексте и разумно различать наблюдения. Это открывает возможности, такие как разработка эгоцентричных моделей визуальных помощников, которые могут отвечать на такие вопросы, как «Эй, ты думаешь, я забыл свои ключи на столе?».

MIMIC-IT не ограничивается английским языком. Он также поддерживает несколько языков, включая китайский, корейский, японский, немецкий, французский, испанский и арабский. Эта многоязычная поддержка позволяет более широкой аудитории по всему миру пользоваться удобством и преимуществами ИИ.

Чтобы обеспечить генерацию высококачественных пар инструкция-ответ, Microsoft представила Syphus, автоматизированный конвейер, который включает системные сообщения, визуальные аннотации и контекстные примеры в качестве подсказок для ChatGPT. Это обеспечивает надежность и точность сгенерированных пар инструкция-ответ на нескольких языках.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Espresso Systems сотрудничает с Polygon Labs для разработки AggLayer для улучшения совместимости накопительных пакетов
Бизнес Новостной репортаж Технологии
Espresso Systems сотрудничает с Polygon Labs для разработки AggLayer для улучшения совместимости накопительных пакетов
9 мая 2024
Инфраструктурный протокол на базе ZKP ZKBase представляет дорожную карту и планирует запустить тестовую сеть в мае
Новостной репортаж Технологии
Инфраструктурный протокол на базе ZKP ZKBase представляет дорожную карту и планирует запустить тестовую сеть в мае
9 мая 2024
BLOCKCHANCE и CONF3RENCE объединяются для крупнейшего в Германии Web3 Конференция в Дортмунде
Бизнес Области применения: Software Истории и обзоры Технологии
BLOCKCHANCE и CONF3RENCE объединяются для крупнейшего в Германии Web3 Конференция в Дортмунде
9 мая 2024
NuLink запускается на Bybit Web3 Платформа IDO. Фаза подписки продлена до 13 мая
Области применения: Новостной репортаж Технологии
NuLink запускается на Bybit Web3 Платформа IDO. Фаза подписки продлена до 13 мая
9 мая 2024
CRYPTOMERIA LABS PTE. ООО